
Podczas niedawnego wydarzenia Google I/O, Google zaprezentowało istotną aktualizację dotyczącą ulepszeń API Gemini, specjalnie dostosowanych do możliwości interakcji z komputerem. Prezentacja Gemini 2.5 Computer Use stanowi znaczący postęp w modelach opartych na sztucznej inteligencji, zaprojektowanych do nawigacji i interakcji z interfejsami użytkownika (UI).Google zapewnia, że ten nowy model przewyższa konkurencję w różnych testach porównawczych, zarówno w zadaniach sterowania w przeglądarce, jak i na urządzeniach mobilnych.
Zrozumienie narzędzia Gemini API Computer Use Tool
Zaprojektowany przepływ pracy dla narzędzia Korzystanie z komputera opiera się na modelu płynnej interakcji, który obejmuje wiele kluczowych kroków:
- Programiści zaczynają od przesłania prośby użytkownika, która obejmuje zrzut ekranu interfejsu i dziennik ostatnio podjętych działań.
- Ponadto deweloperzy mogą wskazać, czy chcą wykluczyć pewne funkcje z rozbudowanej listy dostępnych działań interfejsu użytkownika, czy też uwzględnić dowolne niestandardowe funkcjonalności.
- Po otrzymaniu danych wejściowych model przetwarza informacje i generuje odpowiednią akcję, która może obejmować kliknięcie lub wpisanie.
- W sytuacjach, gdy model nie ma pewności co do swojego wyboru, może poprosić użytkownika końcowego o potwierdzenie. Na przykład, przed podjęciem działań związanych z transakcjami finansowymi, będzie wymagał weryfikacji użytkownika.
- Następnie akcja jest wykonywana za pomocą kodu po stronie klienta, np.poprzez naciśnięcie przycisku lub wyświetlenie monitu o potwierdzenie od użytkownika.
- Po wykonaniu zadania do modelu wykorzystania komputera wysyłany jest nowy zrzut ekranu bieżącego graficznego interfejsu użytkownika (GUI) wraz z aktywnym adresem URL, co powoduje zresetowanie procesu.
- Kroki te powtarzają się aż do pomyślnego ukończenia zdefiniowanego zadania.
Wgląd w wydajność i dostępność
Chociaż model Gemini 2.5 Computer Use jest dopracowany pod kątem optymalnej wydajności w przeglądarkach internetowych, Google wskazał, że oferuje on również godne pochwały wyniki w przypadku obsługi interfejsu użytkownika w urządzeniach mobilnych. Należy jednak zauważyć, że model ten jest wciąż w fazie rozwoju i nie został jeszcze dopracowany pod kątem kontroli na poziomie systemu operacyjnego na komputerach stacjonarnych, na co Google zwróciło uwagę w swojej ostatniej komunikacji.

Dostępność dla programistów
Model Gemini 2.5 Computer Use został udostępniony w publicznej wersji zapoznawczej i jest teraz dostępny dla programistów za pośrednictwem API Gemini na platformach takich jak Google AI Studio i Vertex AI. To ulepszenie dla programistów ma na celu usprawnienie interakcji z użytkownikiem i usprawnienie zadań dzięki zaawansowanym możliwościom sztucznej inteligencji.
Więcej szczegółów i materiałów wizualnych można znaleźć w oryginalnym ogłoszeniu tutaj.
Dodaj komentarz