Model sztucznej inteligencji Gemini 2.5 przewyższa konkurencję w kluczowych testach porównawczych

Podczas niedawnego wydarzenia Google I/O, Google zaprezentowało istotną aktualizację dotyczącą ulepszeń API Gemini, specjalnie dostosowanych do możliwości interakcji z komputerem. Prezentacja Gemini 2.5 Computer Use stanowi znaczący postęp w modelach opartych na sztucznej inteligencji, zaprojektowanych do nawigacji i interakcji z interfejsami użytkownika (UI).Google zapewnia, że ten nowy model przewyższa konkurencję w różnych testach porównawczych, zarówno w zadaniach sterowania w przeglądarce, jak i na urządzeniach mobilnych.

Zrozumienie narzędzia Gemini API Computer Use Tool

Zaprojektowany przepływ pracy dla narzędzia Korzystanie z komputera opiera się na modelu płynnej interakcji, który obejmuje wiele kluczowych kroków:

Programiści zaczynają od przesłania prośby użytkownika, która obejmuje zrzut ekranu interfejsu i dziennik ostatnio podjętych działań.
Ponadto deweloperzy mogą wskazać, czy chcą wykluczyć pewne funkcje z rozbudowanej listy dostępnych działań interfejsu użytkownika, czy też uwzględnić dowolne niestandardowe funkcjonalności.
Po otrzymaniu danych wejściowych model przetwarza informacje i generuje odpowiednią akcję, która może obejmować kliknięcie lub wpisanie.
W sytuacjach, gdy model nie ma pewności co do swojego wyboru, może poprosić użytkownika końcowego o potwierdzenie. Na przykład, przed podjęciem działań związanych z transakcjami finansowymi, będzie wymagał weryfikacji użytkownika.
Następnie akcja jest wykonywana za pomocą kodu po stronie klienta, np.poprzez naciśnięcie przycisku lub wyświetlenie monitu o potwierdzenie od użytkownika.
Po wykonaniu zadania do modelu wykorzystania komputera wysyłany jest nowy zrzut ekranu bieżącego graficznego interfejsu użytkownika (GUI) wraz z aktywnym adresem URL, co powoduje zresetowanie procesu.
Kroki te powtarzają się aż do pomyślnego ukończenia zdefiniowanego zadania.

Wgląd w wydajność i dostępność

Chociaż model Gemini 2.5 Computer Use jest dopracowany pod kątem optymalnej wydajności w przeglądarkach internetowych, Google wskazał, że oferuje on również godne pochwały wyniki w przypadku obsługi interfejsu użytkownika w urządzeniach mobilnych. Należy jednak zauważyć, że model ten jest wciąż w fazie rozwoju i nie został jeszcze dopracowany pod kątem kontroli na poziomie systemu operacyjnego na komputerach stacjonarnych, na co Google zwróciło uwagę w swojej ostatniej komunikacji.

Dostępność dla programistów

Model Gemini 2.5 Computer Use został udostępniony w publicznej wersji zapoznawczej i jest teraz dostępny dla programistów za pośrednictwem API Gemini na platformach takich jak Google AI Studio i Vertex AI. To ulepszenie dla programistów ma na celu usprawnienie interakcji z użytkownikiem i usprawnienie zadań dzięki zaawansowanym możliwościom sztucznej inteligencji.

Więcej szczegółów i materiałów wizualnych można znaleźć w oryginalnym ogłoszeniu tutaj.

Model sztucznej inteligencji Gemini 2.5 przewyższa konkurencję w kluczowych testach porównawczych

Zrozumienie narzędzia Gemini API Computer Use Tool

Wgląd w wydajność i dostępność

Dostępność dla programistów

Powiązane artykuły:

Frustrują Cię niepotrzebne funkcje systemu Windows 11? Microsoft powinien zająć się tymi podstawowymi kwestiami

Dobre wieści od Microsoftu dla subskrybentów Xbox Game Pass zaniepokojonych podwyżkami cen

Dodaj komentarz Anuluj pisanie odpowiedzi