Das KI-Modell Gemini 2.5 übertrifft die Konkurrenz in wichtigen Benchmarktests

Das KI-Modell Gemini 2.5 übertrifft die Konkurrenz in wichtigen Benchmarktests

Auf der jüngsten Google I/O-Veranstaltung stellte Google ein wichtiges Update mit Verbesserungen der Gemini-API vor, das speziell auf die Computerinteraktion zugeschnitten ist. Die Vorstellung von Gemini 2.5 Computer Use stellt einen wesentlichen Fortschritt bei KI-gesteuerten Modellen für die Navigation und Interaktion mit Benutzeroberflächen (UIs) dar. Google behauptet, dass dieses neue Modell seine Konkurrenz in verschiedenen Benchmarks sowohl bei Web- als auch bei mobilen Steuerungsaufgaben übertrifft.

Das Gemini API Computer Use Tool verstehen

Der entwickelte Workflow für das Computer Use-Tool basiert auf einem nahtlosen Interaktionsmodell, das mehrere wichtige Schritte umfasst:

  • Entwickler beginnen mit der Übermittlung einer Benutzeranfrage, die einen Screenshot der Benutzeroberfläche und ein Protokoll der zuletzt durchgeführten Aktionen umfasst.
  • Darüber hinaus können Entwickler angeben, ob sie bestimmte Funktionen aus der umfangreichen Liste der verfügbaren UI-Aktionen ausschließen oder benutzerdefinierte Funktionen einschließen möchten.
  • Nach Erhalt dieser Eingabe verarbeitet das Modell die Informationen und generiert eine entsprechende Aktion, die ein Klicken oder Tippen beinhalten kann.
  • In Szenarien, in denen das Modell seiner Wahl nicht sicher ist, kann es den Endbenutzer um eine Bestätigung bitten. Beispielsweise wird eine Benutzerverifizierung angefordert, bevor Aktionen im Zusammenhang mit Finanztransaktionen ausgeführt werden.
  • Die Aktion wird dann über clientseitigen Code ausgeführt, beispielsweise durch Drücken einer Taste oder durch Aufforderung zur Bestätigung durch den Benutzer.
  • Nachdem die Aufgabe ausgeführt wurde, wird ein neuer Screenshot der aktuellen grafischen Benutzeroberfläche (GUI) zusammen mit der aktiven URL an das Computernutzungsmodell gesendet, wodurch der Prozess zurückgesetzt wird.
  • Diese Schritte werden wiederholt, bis die definierte Aufgabe erfolgreich abgeschlossen ist.

Leistungseinblicke und Zugänglichkeit

Das Computernutzungsmodell Gemini 2.5 ist zwar auf optimale Leistung in Webbrowsern optimiert, Google weist jedoch darauf hin, dass es auch bei mobilen UI-Operationen gute Ergebnisse liefert. Bemerkenswert ist jedoch, dass sich dieses Modell noch in der Entwicklung befindet und noch nicht für die Steuerung auf Desktop-Betriebssystemebene optimiert ist, wie Google in seiner jüngsten Mitteilung betonte.

Gemini 2.5 Computernutzung

Verfügbarkeit für Entwickler

Das Computernutzungsmodell Gemini 2.5 ist als öffentliche Vorschau verfügbar und steht Entwicklern nun über die Gemini-API auf Plattformen wie Google AI Studio und Vertex AI zur Verfügung. Diese Erweiterung für Entwickler zielt darauf ab, die Benutzerinteraktion zu verbessern und Aufgaben durch erweiterte KI-Funktionen zu rationalisieren.

Ausführlichere Einblicke und visuelle Ressourcen erhalten Sie in der Originalankündigung hier.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert