Google presenta Gemini 2.0 Flash con salida nativa de audio e imágenes

Presentamos el modelo Flash de Gemini 2.0: la última innovación en inteligencia artificial de Google

Google ha entrado en una nueva fase con la introducción de su modelo Gemini 2.0 Flash , que marca una mejora significativa con respecto a su predecesor, Gemini 1.5 Pro. Este modelo de vanguardia no solo cuenta con métricas de rendimiento mejoradas, sino que también duplica la velocidad, lo que lo convierte en un cambio de juego en las aplicaciones de IA.

Funciones y capacidades mejoradas

El modelo Gemini 2.0 Flash incorpora una serie de funciones avanzadas que elevan su funcionalidad. Entre sus mejoras más notables se encuentran:

Salida multimodal: el modelo admite la generación nativa de imágenes junto con texto y puede producir audio multilingüe a través de capacidades de texto a voz (TTS) orientables.
Entradas multimodales: puede procesar varios tipos de entradas, incluidas imágenes, videos y audio, lo que permite una interacción más rica.
Integración de herramientas nativas: los usuarios pueden llamar sin problemas a herramientas como Google Search y ejecutar código directamente dentro del modelo.

Acceso para desarrolladores y próximos lanzamientos

Los desarrolladores que deseen explorar Gemini 2.0 Flash pueden acceder a la versión experimental tanto en AI Studio como en Vertex AI a partir de hoy. Además, la nueva API Multimodal Live facilita la integración en tiempo real de las entradas de transmisión de audio y video, junto con la capacidad de utilizar múltiples herramientas simultáneamente.

Los consumidores pueden experimentar Gemini 2.0 Flash a través de las ofertas de Gemini disponibles en plataformas web de escritorio y móviles, y próximamente se lanzarán aplicaciones móviles. Google ha anunciado que el lanzamiento completo de este modelo se producirá en enero de 2025.

Prototipos innovadores: ampliando el horizonte de posibilidades

Junto con el lanzamiento de Gemini 2.0 Flash, Google presentó varios prototipos que profundizan en las capacidades de agencia de este nuevo sistema de IA:

Proyecto Astra: esta iniciativa permite conversaciones multilingües y puede funcionar en idiomas mixtos. Cabe destacar que cuenta con una impresionante memoria en sesión de hasta 10 minutos, con la capacidad de aprovechar herramientas como Google Search, Lens y Maps.
Proyecto Mariner: este agente de IA se especializa en interpretar y razonar a partir de la información que se muestra en el navegador del usuario para ejecutar tareas de manera eficiente. Google indica que el Proyecto Mariner ha logrado una tasa de éxito de vanguardia del 83,5 % en una configuración de un solo agente.
Jules: un agente de inteligencia artificial centrado en el código que se integra con los flujos de trabajo de GitHub. Jules ayuda a los desarrolladores a diagnosticar problemas, planificar soluciones y ejecutarlas directamente dentro del entorno de codificación.

El futuro de la IA con Gemini 2.0 Flash

Con sus notables capacidades multimodales e integraciones de herramientas nativas, Gemini 2.0 Flash representa un gran avance y ofrece innumerables posibilidades tanto para desarrolladores como para usuarios finales. Los avances en este modelo podrían redefinir la forma en que interactuamos con la IA, fusionando funcionalidad y creatividad.

Fuente e imágenes