Model sztucznej inteligencji Gemini 2.5 przewyższa konkurencję w kluczowych testach porównawczych

Model sztucznej inteligencji Gemini 2.5 przewyższa konkurencję w kluczowych testach porównawczych

Podczas niedawnego wydarzenia Google I/O, Google zaprezentowało istotną aktualizację dotyczącą ulepszeń API Gemini, specjalnie dostosowanych do możliwości interakcji z komputerem. Prezentacja Gemini 2.5 Computer Use stanowi znaczący postęp w modelach opartych na sztucznej inteligencji, zaprojektowanych do nawigacji i interakcji z interfejsami użytkownika (UI).Google zapewnia, że ​​ten nowy model przewyższa konkurencję w różnych testach porównawczych, zarówno w zadaniach sterowania w przeglądarce, jak i na urządzeniach mobilnych.

Zrozumienie narzędzia Gemini API Computer Use Tool

Zaprojektowany przepływ pracy dla narzędzia Korzystanie z komputera opiera się na modelu płynnej interakcji, który obejmuje wiele kluczowych kroków:

  • Programiści zaczynają od przesłania prośby użytkownika, która obejmuje zrzut ekranu interfejsu i dziennik ostatnio podjętych działań.
  • Ponadto deweloperzy mogą wskazać, czy chcą wykluczyć pewne funkcje z rozbudowanej listy dostępnych działań interfejsu użytkownika, czy też uwzględnić dowolne niestandardowe funkcjonalności.
  • Po otrzymaniu danych wejściowych model przetwarza informacje i generuje odpowiednią akcję, która może obejmować kliknięcie lub wpisanie.
  • W sytuacjach, gdy model nie ma pewności co do swojego wyboru, może poprosić użytkownika końcowego o potwierdzenie. Na przykład, przed podjęciem działań związanych z transakcjami finansowymi, będzie wymagał weryfikacji użytkownika.
  • Następnie akcja jest wykonywana za pomocą kodu po stronie klienta, np.poprzez naciśnięcie przycisku lub wyświetlenie monitu o potwierdzenie od użytkownika.
  • Po wykonaniu zadania do modelu wykorzystania komputera wysyłany jest nowy zrzut ekranu bieżącego graficznego interfejsu użytkownika (GUI) wraz z aktywnym adresem URL, co powoduje zresetowanie procesu.
  • Kroki te powtarzają się aż do pomyślnego ukończenia zdefiniowanego zadania.

Wgląd w wydajność i dostępność

Chociaż model Gemini 2.5 Computer Use jest dopracowany pod kątem optymalnej wydajności w przeglądarkach internetowych, Google wskazał, że oferuje on również godne pochwały wyniki w przypadku obsługi interfejsu użytkownika w urządzeniach mobilnych. Należy jednak zauważyć, że model ten jest wciąż w fazie rozwoju i nie został jeszcze dopracowany pod kątem kontroli na poziomie systemu operacyjnego na komputerach stacjonarnych, na co Google zwróciło uwagę w swojej ostatniej komunikacji.

Korzystanie z komputera Gemini 2.5

Dostępność dla programistów

Model Gemini 2.5 Computer Use został udostępniony w publicznej wersji zapoznawczej i jest teraz dostępny dla programistów za pośrednictwem API Gemini na platformach takich jak Google AI Studio i Vertex AI. To ulepszenie dla programistów ma na celu usprawnienie interakcji z użytkownikiem i usprawnienie zadań dzięki zaawansowanym możliwościom sztucznej inteligencji.

Więcej szczegółów i materiałów wizualnych można znaleźć w oryginalnym ogłoszeniu tutaj.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *