Modelo de IA Gemini 2.5 supera concorrentes em testes de benchmark importantes

Modelo de IA Gemini 2.5 supera concorrentes em testes de benchmark importantes

No recente evento Google I/O, o Google apresentou uma atualização significativa referente aos aprimoramentos da API Gemini, especificamente voltada para recursos de interação com computadores. A apresentação do Gemini 2.5 Computer Use representa um avanço substancial nos modelos baseados em IA, projetados para navegar e interagir com interfaces de usuário (UIs).O Google afirma que este novo modelo supera seus concorrentes em vários benchmarks em tarefas de controle tanto na web quanto em dispositivos móveis.

Compreendendo a ferramenta de uso do computador Gemini API

O fluxo de trabalho projetado para a ferramenta Uso do Computador é criado em torno de um modelo de interação contínua, que envolve várias etapas principais:

  • Os desenvolvedores começam enviando uma solicitação do usuário que inclui uma captura de tela da interface e um log das ações recentes realizadas.
  • Além disso, os desenvolvedores podem indicar se desejam excluir determinadas funções da extensa lista de ações de interface do usuário disponíveis ou incluir quaisquer funcionalidades personalizadas.
  • Ao receber essa entrada, o modelo processa as informações e gera uma ação correspondente, que pode envolver clicar ou digitar.
  • Em cenários em que o modelo não confia em sua escolha, ele pode solicitar a confirmação do usuário final. Por exemplo, ele solicitará a verificação do usuário antes de prosseguir com ações relacionadas a transações financeiras.
  • A ação é então executada por meio de código do lado do cliente, como pressionar um botão ou solicitar confirmação do usuário.
  • Após a execução da tarefa, uma nova captura de tela da interface gráfica do usuário (GUI) atual, juntamente com a URL ativa, é enviada ao modelo de Uso do Computador, reiniciando o processo.
  • Essas etapas se repetem até que a tarefa definida seja concluída com sucesso.

Insights de desempenho e acessibilidade

Embora o modelo Gemini 2.5 Computer Use esteja ajustado para desempenho ideal em navegadores web, o Google indicou que ele também oferece resultados louváveis ​​em operações de interface de usuário para dispositivos móveis. No entanto, vale ressaltar que este modelo ainda está em desenvolvimento e ainda não foi ajustado para controle em nível de sistema operacional para desktop, um ponto destacado pelo Google em suas comunicações recentes.

Uso do computador Gemini 2.5

Disponibilidade para desenvolvedores

O modelo Gemini 2.5 Computer Use foi lançado em versão prévia pública e agora está acessível para desenvolvedores por meio da API Gemini em plataformas como Google AI Studio e Vertex AI. Essa capacitação para desenvolvedores visa aprimorar a interação do usuário e otimizar tarefas por meio de recursos avançados de IA.

Para obter informações mais detalhadas e recursos visuais, você pode explorar o anúncio original aqui.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *