
En el reciente evento Google I/O, Google presentó una importante actualización relacionada con las mejoras de la API de Gemini, específicamente diseñadas para la interacción con computadoras. La presentación de Gemini 2.5 Computer Use representa un avance sustancial en los modelos basados en IA diseñados para navegar e interactuar con interfaces de usuario (UI).Google afirma que este nuevo modelo supera a sus competidores en diversas pruebas de rendimiento, tanto en tareas de control web como móvil.
Comprensión de la herramienta de uso informático API de Gemini
El flujo de trabajo diseñado para la herramienta Computer Use se basa en un modelo de interacción perfecta, que implica varios pasos clave:
- Los desarrolladores comienzan enviando una solicitud de usuario que incluye una captura de pantalla de la interfaz y un registro de las acciones recientes realizadas.
- Además, los desarrolladores pueden indicar si desean excluir ciertas funciones de la extensa lista de acciones de UI disponibles o incluir alguna funcionalidad personalizada.
- Al recibir esta entrada, el modelo procesa la información y genera una acción correspondiente, que podría implicar hacer clic o escribir.
- En situaciones donde el modelo no confía en su elección, puede solicitar la confirmación del usuario final. Por ejemplo, solicitará la verificación del usuario antes de proceder con transacciones financieras.
- Luego, la acción se ejecuta a través del código del lado del cliente, como presionar un botón o solicitar confirmación al usuario.
- Una vez ejecutada la tarea, se envía una nueva captura de pantalla de la interfaz gráfica de usuario (GUI) actual junto con la URL activa al modelo de uso de la computadora, reiniciando el proceso.
- Estos pasos se repiten hasta que la tarea definida se complete con éxito.
Información sobre rendimiento y accesibilidad
Si bien el modelo de uso de computadora Gemini 2.5 está optimizado para un rendimiento óptimo en navegadores web, Google ha indicado que también ofrece resultados excelentes en la interfaz de usuario móvil. Sin embargo, cabe destacar que este modelo aún está en desarrollo y aún no está optimizado para el control a nivel de sistema operativo de escritorio, un punto que Google destacó en sus comunicaciones recientes.

Disponibilidad para desarrolladores
El modelo de uso de computadoras Gemini 2.5 ya está disponible en versión preliminar pública y los desarrolladores pueden acceder a él a través de la API de Gemini en plataformas como Google AI Studio y Vertex AI. Esta mejora para desarrolladores busca mejorar la interacción del usuario y optimizar las tareas mediante capacidades avanzadas de IA.
Para obtener información más detallada y recursos visuales, puede explorar el anuncio original aquí.
Deja una respuesta