
Lors du récent événement Google I/O, Google a présenté une mise à jour importante concernant les améliorations apportées à l’API Gemini, spécifiquement adaptées aux capacités d’interaction avec les ordinateurs. Le lancement de Gemini 2.5 Computer Use représente une avancée significative dans les modèles d’IA conçus pour naviguer et interagir avec les interfaces utilisateur (IU).Google affirme que ce nouveau modèle surpasse ses concurrents sur divers critères, tant pour les tâches de contrôle web que mobiles.
Comprendre l’outil d’utilisation informatique de l’API Gemini
Le flux de travail conçu pour l’outil d’utilisation de l’ordinateur est construit autour d’un modèle d’interaction transparent, qui implique plusieurs étapes clés :
- Les développeurs commencent par soumettre une demande utilisateur qui comprend une capture d’écran de l’interface et un journal des actions récentes effectuées.
- De plus, les développeurs peuvent indiquer s’ils souhaitent exclure certaines fonctions de la longue liste d’actions d’interface utilisateur disponibles ou inclure des fonctionnalités personnalisées.
- À la réception de cette entrée, le modèle traite les informations et génère une action correspondante, qui peut impliquer un clic ou une saisie.
- Dans les cas où le modèle doute de son choix, il peut demander confirmation à l’utilisateur final. Par exemple, il demandera une vérification avant de procéder à des transactions financières.
- L’action est ensuite exécutée via un code côté client, par exemple en appuyant sur un bouton ou en demandant une confirmation à l’utilisateur.
- Une fois la tâche exécutée, une nouvelle capture d’écran de l’interface utilisateur graphique (GUI) actuelle ainsi que l’URL active sont envoyées au modèle d’utilisation de l’ordinateur, réinitialisant ainsi le processus.
- Ces étapes se répètent jusqu’à ce que la tâche définie soit terminée avec succès.
Informations sur les performances et l’accessibilité
Bien que le modèle d’utilisation de Gemini 2.5 soit optimisé pour des performances optimales dans les navigateurs web, Google a indiqué qu’il offrait également des résultats satisfaisants pour les opérations sur l’interface utilisateur mobile. Il convient toutefois de noter que ce modèle est encore en développement et n’est pas encore optimisé pour le contrôle au niveau du système d’exploitation de bureau, un point souligné par Google dans ses récentes communications.

Disponibilité pour les développeurs
Le modèle d’utilisation de l’ordinateur Gemini 2.5 est disponible en préversion publique et est désormais accessible aux développeurs via l’API Gemini sur des plateformes telles que Google AI Studio et Vertex AI. Cette optimisation vise à améliorer l’interaction utilisateur et à simplifier les tâches grâce à des fonctionnalités d’IA avancées.
Pour des informations plus détaillées et des ressources visuelles, vous pouvez explorer l’annonce originale ici.
Laisser un commentaire