
No recente evento Google I/O, o Google apresentou uma atualização significativa referente aos aprimoramentos da API Gemini, especificamente voltada para recursos de interação com computadores. A apresentação do Gemini 2.5 Computer Use representa um avanço substancial nos modelos baseados em IA, projetados para navegar e interagir com interfaces de usuário (UIs).O Google afirma que este novo modelo supera seus concorrentes em vários benchmarks em tarefas de controle tanto na web quanto em dispositivos móveis.
Compreendendo a ferramenta de uso do computador Gemini API
O fluxo de trabalho projetado para a ferramenta Uso do Computador é criado em torno de um modelo de interação contínua, que envolve várias etapas principais:
- Os desenvolvedores começam enviando uma solicitação do usuário que inclui uma captura de tela da interface e um log das ações recentes realizadas.
- Além disso, os desenvolvedores podem indicar se desejam excluir determinadas funções da extensa lista de ações de interface do usuário disponíveis ou incluir quaisquer funcionalidades personalizadas.
- Ao receber essa entrada, o modelo processa as informações e gera uma ação correspondente, que pode envolver clicar ou digitar.
- Em cenários em que o modelo não confia em sua escolha, ele pode solicitar a confirmação do usuário final. Por exemplo, ele solicitará a verificação do usuário antes de prosseguir com ações relacionadas a transações financeiras.
- A ação é então executada por meio de código do lado do cliente, como pressionar um botão ou solicitar confirmação do usuário.
- Após a execução da tarefa, uma nova captura de tela da interface gráfica do usuário (GUI) atual, juntamente com a URL ativa, é enviada ao modelo de Uso do Computador, reiniciando o processo.
- Essas etapas se repetem até que a tarefa definida seja concluída com sucesso.
Insights de desempenho e acessibilidade
Embora o modelo Gemini 2.5 Computer Use esteja ajustado para desempenho ideal em navegadores web, o Google indicou que ele também oferece resultados louváveis em operações de interface de usuário para dispositivos móveis. No entanto, vale ressaltar que este modelo ainda está em desenvolvimento e ainda não foi ajustado para controle em nível de sistema operacional para desktop, um ponto destacado pelo Google em suas comunicações recentes.

Disponibilidade para desenvolvedores
O modelo Gemini 2.5 Computer Use foi lançado em versão prévia pública e agora está acessível para desenvolvedores por meio da API Gemini em plataformas como Google AI Studio e Vertex AI. Essa capacitação para desenvolvedores visa aprimorar a interação do usuário e otimizar tarefas por meio de recursos avançados de IA.
Para obter informações mais detalhadas e recursos visuais, você pode explorar o anúncio original aqui.
Deixe um comentário