Modelo de IA Gemini 2.5 supera concorrentes em testes de benchmark importantes

No recente evento Google I/O, o Google apresentou uma atualização significativa referente aos aprimoramentos da API Gemini, especificamente voltada para recursos de interação com computadores. A apresentação do Gemini 2.5 Computer Use representa um avanço substancial nos modelos baseados em IA, projetados para navegar e interagir com interfaces de usuário (UIs).O Google afirma que este novo modelo supera seus concorrentes em vários benchmarks em tarefas de controle tanto na web quanto em dispositivos móveis.

Compreendendo a ferramenta de uso do computador Gemini API

O fluxo de trabalho projetado para a ferramenta Uso do Computador é criado em torno de um modelo de interação contínua, que envolve várias etapas principais:

Os desenvolvedores começam enviando uma solicitação do usuário que inclui uma captura de tela da interface e um log das ações recentes realizadas.
Além disso, os desenvolvedores podem indicar se desejam excluir determinadas funções da extensa lista de ações de interface do usuário disponíveis ou incluir quaisquer funcionalidades personalizadas.
Ao receber essa entrada, o modelo processa as informações e gera uma ação correspondente, que pode envolver clicar ou digitar.
Em cenários em que o modelo não confia em sua escolha, ele pode solicitar a confirmação do usuário final. Por exemplo, ele solicitará a verificação do usuário antes de prosseguir com ações relacionadas a transações financeiras.
A ação é então executada por meio de código do lado do cliente, como pressionar um botão ou solicitar confirmação do usuário.
Após a execução da tarefa, uma nova captura de tela da interface gráfica do usuário (GUI) atual, juntamente com a URL ativa, é enviada ao modelo de Uso do Computador, reiniciando o processo.
Essas etapas se repetem até que a tarefa definida seja concluída com sucesso.

Insights de desempenho e acessibilidade

Embora o modelo Gemini 2.5 Computer Use esteja ajustado para desempenho ideal em navegadores web, o Google indicou que ele também oferece resultados louváveis em operações de interface de usuário para dispositivos móveis. No entanto, vale ressaltar que este modelo ainda está em desenvolvimento e ainda não foi ajustado para controle em nível de sistema operacional para desktop, um ponto destacado pelo Google em suas comunicações recentes.

Disponibilidade para desenvolvedores

O modelo Gemini 2.5 Computer Use foi lançado em versão prévia pública e agora está acessível para desenvolvedores por meio da API Gemini em plataformas como Google AI Studio e Vertex AI. Essa capacitação para desenvolvedores visa aprimorar a interação do usuário e otimizar tarefas por meio de recursos avançados de IA.

Para obter informações mais detalhadas e recursos visuais, você pode explorar o anúncio original aqui.

Modelo de IA Gemini 2.5 supera concorrentes em testes de benchmark importantes

Compreendendo a ferramenta de uso do computador Gemini API

Insights de desempenho e acessibilidade

Disponibilidade para desenvolvedores

Artigos relacionados:

Frustrado com recursos desnecessários do Windows 11? A Microsoft deve abordar estes princípios básicos essenciais

Boas notícias da Microsoft para assinantes do Xbox Game Pass preocupados com aumentos de preços

Deixe um comentário Cancelar resposta