Principais recursos do Google Gemini serão lançados em 2024, à medida que avançamos para 2025

O ano de 2024 remodelou significativamente o cenário tecnológico, particularmente no Google, que revelou uma gama de inovações de IA sob a bandeira Gemini. Esta iniciativa destaca o chatbot conversacional junto com vários modelos de IA fundamentais.

Ao longo do ano, o Google introduziu vários produtos e melhorias no domínio de IA generativa. Além dos destaques desses novos recursos do Gemini, vale a pena explorar os vários produtos que a gigante da tecnologia aposentou em 2024, junto com a lista de desejos de recursos do Instagram antecipada.

Observação: a lista a seguir destaca principalmente os principais recursos do Gemini lançados em 2024, mas não abrange todos os desenvolvimentos.

De Bardo a Gêmeos: A Revolução da Rebranding

Uma grande transformação neste ano envolveu o Google renomeando seu chatbot Bard para Gemini, alinhando a convenção de nomenclatura com seus modelos pré-existentes. Junto com essa transição, a empresa de tecnologia lançou o modelo Gemini 1.0 Pro e tornou o chatbot acessível em mais de 40 idiomas em 230 países.

Um engenheiro do Google explicou o simbolismo por trás do nome Gemini, relacionando-o ao signo do zodíaco conhecido por sua dualidade, que é paralelo à capacidade de Gemini de processar vários tipos de dados. Além disso, o nome homenageia o Projeto Gemini da NASA, uma iniciativa de exploração inicial da lua.

Lançamento de aplicativos móveis e modelo de assinatura

Em fevereiro, o Google estreou o aplicativo Gemini para Android, finalmente suplantando o Google Assistant como assistente de voz padrão. Enquanto os usuários do Android adotaram o novo chatbot, os usuários do iOS puderam acessá-lo pelo aplicativo do Google.

O mesmo mês marcou a introdução do serviço de assinatura paga chamado Gemini Advanced, concedendo aos usuários acesso aos modelos mais avançados, incluindo Gemini Ultra 1.0, 1.5 Pro e versões experimentais como Gemini-Exp-1206.

Além disso, recursos como “Ajude-me a escrever” ficaram disponíveis em dispositivos Chromebook Plus, fornecendo um prático botão Gemini na prateleira de aplicativos da tela inicial.

Integrando IA no Google Maps

Em março, o Google elevou a utilidade do chatbot Gemini ao integrar suporte ao Google Maps. Os usuários agora podem emitir comandos de navegação diretamente pelo chatbot.

Google Gemini Mapas de inicialização automática

Por exemplo, um usuário pode dizer “Navegue até [X]”, solicitando que o Gemini forneça informações como distância da viagem, duração esperada e um link para o Google Maps, que iniciará a navegação logo em seguida.

Introdução ao Vids: Uma nova ferramenta de criação de vídeos

Em abril, o Google lançou o Vids, uma ferramenta aprimorada pelo Gemini com o objetivo de simplificar a criação de vídeos para treinamento, marketing e outros propósitos. Com uma interface estilo linha do tempo, os usuários podem montar facilmente ativos de vídeo do Google Drive, gravar narrações ou filmar diretamente do aplicativo.

Os recursos de colaboração permitem que os usuários gerenciem quem pode editar, comentar ou visualizar seus projetos. Observe que o Google Vids é um complemento pago dentro do pacote Workspace.

Integração do YouTube Music

Em maio, uma nova extensão do YouTube Music foi lançada, permitindo que os usuários do Gemini interagissem com o YouTube Music para descobrir faixas, ouvir estações de rádio e explorar novos artistas e playlists.

Desenvolvimento contínuo: novos modelos Gemini

2024 também testemunhou várias atualizações nos modelos Gemini. O lançamento do Gemini 1.5 Flash em maio forneceu um LLM leve otimizado para tarefas como resumo, interações de bate-papo, legendagem de imagens e vídeos e extração de dados.

Outras melhorias incluíram uma versão mais compacta chamada Gemini 1.5 Flash-8B e um novo modelo Gemini 1.5 Pro ostentando desempenho aprimorado para tarefas de codificação. Em dezembro, o Google revelou o modelo experimental Gemini 2.0 Flash, apresentando suporte para imagens geradas nativamente e recursos de áudio multilíngue.

Pergunte ao Assistente de Fotos

Durante o Google I/O 2024, o assistente Ask Photos foi revelado. Este assistente digital, alimentado pela Gemini, foi projetado para vasculhar sua galeria, gerar legendas personalizadas e criar instantâneos de suas viagens.

Expandindo para a educação

Em maio, o Google estendeu as funcionalidades do Gemini para a esfera educacional ao lançar dois novos complementos: Gemini Education e Gemini Education Premium. Esses recursos incluem recursos de anotações orientados por IA e medidas aprimoradas de proteção de dados.

Incorporando Gemini em aplicativos de espaço de trabalho

Dando continuidade à sua missão de integrar IA em suas plataformas, o Google revelou os painéis laterais Gemini dentro dos aplicativos do Workspace em junho. Esses painéis personalizam a funcionalidade com base no contexto do aplicativo. Por exemplo, o Gemini pode resumir tópicos de e-mail no Gmail ou auxiliar na criação de slides de apresentação no Google Slides.

Em novembro, o painel lateral Gemini foi adicionado ao Google Chat, permitindo que os usuários resumissem conversas de forma eficiente.

Apresentando Gemini Live

No evento de hardware Pixel em agosto, o Google lançou o Gemini Live, criando uma experiência de conversação dinâmica com o chatbot de IA. Os usuários podem se envolver em diálogos naturais e retomar conversas mesmo enquanto o aplicativo estiver em execução em segundo plano ou enquanto seus dispositivos estiverem bloqueados.

https://www.youtube.com/watch?v=fY5jwF7TQmE

Go Live with Gemini (https://www.youtube.com/watch?v=fY5jwF7TQmE)

Inicialmente parte do plano Gemini Advanced, esse recurso foi posteriormente disponibilizado a todos os usuários por meio do aplicativo Gemini para Android e iOS, com suporte para mais de 40 idiomas adicionado logo em seguida.

Criando Gemas Personalizadas

Com a introdução do Custom Gems, os usuários agora podem personalizar seus próprios chatbots Gemini para tarefas específicas, seja para gerar ideias para eventos ou atuar como tutores virtuais.

Este recurso premium está acessível a usuários dos planos Gemini Advanced, Business e Enterprise em mais de 150 países. Os usuários podem explorar gemas pré-fabricadas ou criar novas diretamente pelo gerenciador de gemas.

Lançamento do Imagen 3 e Whisk Generator

Em outubro, o Google lançou o Imagen 3, seu modelo de geração de texto para imagem de primeira linha, que se integra perfeitamente ao ecossistema Gemini, suportando todos os idiomas. Este modelo aprimora a compreensão das instruções do usuário, permitindo a criação de paisagens fotorrealistas, pinturas artísticas e cenas imaginativas, com refinamentos subsequentes possíveis.

Ferramenta de geração de imagens do Google Whisk

Além do Imagen 3, o Google revelou a ferramenta Whisk, que permite a geração de imagens a partir de imagens existentes, expandindo ainda mais suas ofertas criativas.

Colaborações Gemini com Opera e Snapchat

O Google fez uma parceria com a Opera para integrar as funcionalidades do Gemini à IA do navegador Aria, aprimorando a experiência de navegação com recursos avançados de conversão de texto em voz e geração de imagens.

Além disso, o Snapchat colaborou com o Google para melhorar seu chatbot My AI, resultando em uma experiência multimodal mais sofisticada. Relatórios indicam que essa integração aumentou o engajamento do usuário na plataforma em 2,5 vezes nos Estados Unidos.

Pesquisa Profunda: Um Novo Assistente de Pesquisa de IA

Para aqueles envolvidos em pesquisas extensas, o novo assistente Deep Research visa simplificar o processo. Esta ferramenta facilita a análise completa de documentos, resumos e extração de insights críticos de grandes conjuntos de dados.

Também estamos introduzindo um novo recurso de agente chamado Deep Research no Gemini Advanced, um assistente de pesquisa que pode se aprofundar em tópicos complexos e criar relatórios para você com links para as fontes relevantes. pic.twitter.com/imYd4tktEG

-Sundar Pichai (@sundarpichai) 11 de dezembro de 2024

O Deep Research está disponível como parte do Gemini Advanced, oferecendo suporte a mais de 45 idiomas em mais de 150 países.

Navegando com linguagem natural em mapas

Um aprimoramento recente do Google Maps agora permite que os usuários realizem pesquisas em linguagem natural. Por exemplo, digitar “coisas para fazer com amigos à noite” produz avaliações resumidas de locais sugeridos, oferecendo uma experiência de navegação mais intuitiva.

Transmissão do Spotify

Com as últimas atualizações do Gemini, a compatibilidade com o Spotify foi introduzida junto com o YouTube Music. Os usuários agora podem solicitar músicas, navegar por playlists e pesquisar músicas usando letras por meio da interface do Gemini no Android, desde que tenham uma conta Spotify Premium.

Controvérsias em torno de Gêmeos

Apesar de seus avanços, o Gemini do Google enfrentou controvérsias. Em fevereiro, o recurso de geração de imagens foi criticado por parcialidade, levando a uma suspensão temporária do serviço enquanto o Google abordava as preocupações.

Outros relatórios notaram incidentes de resumo de PDF não autorizado, mesmo quando configurações específicas foram desabilitadas. Além disso, descobertas revelaram que uma equipe de contratados ajudou a avaliar a saída da Gemini em relação a modelos concorrentes, levantando questões sobre similaridades de resposta.

Fonte e Imagens