El año 2024 transformó significativamente el panorama tecnológico, en particular en Google, que presentó una serie de innovaciones en inteligencia artificial bajo el lema Gemini. Esta iniciativa destaca el chatbot conversacional junto con varios modelos fundamentales de inteligencia artificial.
A lo largo del año, Google presentó numerosos productos y mejoras en el ámbito de la inteligencia artificial generativa. Además de los aspectos más destacados de estas nuevas funciones de Gemini, vale la pena explorar los diversos productos que el gigante tecnológico retiró en 2024, junto con la lista de deseos de funciones de Instagram que se esperaba.
Nota: La siguiente lista destaca principalmente las características clave de Gemini lanzadas en 2024, pero no abarca todos los desarrollos.
De Bardo a Géminis: la revolución del cambio de marca
Una de las principales transformaciones de este año fue el cambio de nombre de su chatbot Bard a Gemini, alineando la convención de nombres con sus modelos preexistentes. Junto con esta transición, la empresa tecnológica lanzó el modelo Gemini 1.0 Pro y puso al chatbot a disposición en más de 40 idiomas en 230 países.
Un ingeniero de Google explicó el simbolismo detrás del nombre Gemini, relacionándolo con el signo del zodiaco conocido por su dualidad, que es paralela a la capacidad de Géminis para procesar varios tipos de datos. Además, el nombre rinde homenaje al Proyecto Gemini de la NASA, una iniciativa temprana de exploración lunar.
Lanzamiento de aplicaciones móviles y modelo de suscripción
En febrero, Google presentó la aplicación Gemini para Android, que finalmente sustituyó a Google Assistant como asistente de voz predeterminado. Si bien los usuarios de Android adoptaron el nuevo chatbot, los usuarios de iOS pudieron acceder a él a través de la aplicación de Google.
El mismo mes marcó la introducción del servicio de suscripción paga llamado Gemini Advanced, que otorga a los usuarios acceso a los modelos más avanzados, incluidos Gemini Ultra 1.0, 1.5 Pro y versiones experimentales como Gemini-Exp-1206.
Además, funciones como “Ayúdame a escribir” se encuentran disponibles en los dispositivos Chromebook Plus, lo que proporciona un práctico botón Gemini en el estante de aplicaciones de la pantalla de inicio.
Integración de IA en Google Maps
En marzo, Google aumentó la utilidad del chatbot Gemini al integrar compatibilidad con Google Maps. Los usuarios ahora pueden emitir comandos de navegación directamente a través del chatbot.
Por ejemplo, un usuario puede decir: “Llévame a [X]”, lo que solicitará a Gemini que proporcione información como la distancia del viaje, la duración prevista y un enlace a Google Maps, que iniciará la navegación poco después.
Introducción de Vids: una nueva herramienta de creación de vídeos
En abril, Google lanzó Vids, una herramienta mejorada con Gemini que tiene como objetivo simplificar la creación de videos para capacitación, marketing y otros fines. Con una interfaz de estilo de línea de tiempo, los usuarios pueden ensamblar sin problemas recursos de video desde Google Drive, grabar voces en off o filmar directamente desde la aplicación.
Las funciones de colaboración permiten a los usuarios administrar quién puede editar, comentar o ver sus proyectos. Tenga en cuenta que Google Vids es un complemento pago dentro de la suite Workspace.
Integración de música de YouTube
En mayo, se presentó una nueva extensión de YouTube Music, que permite a los usuarios de Gemini interactuar con YouTube Music para descubrir pistas, escuchar estaciones de radio y explorar nuevos artistas y listas de reproducción.
Desarrollo continuo: nuevos modelos Gemini
En 2024 también se realizaron varias actualizaciones a los modelos Gemini. El lanzamiento de Gemini 1.5 Flash en mayo proporcionó un LLM liviano y optimizado para tareas como resumen, interacciones de chat, subtítulos de imágenes y videos y extracción de datos.
Entre las mejoras se encuentran una versión más compacta denominada Gemini 1.5 Flash-8B y un nuevo modelo Gemini 1.5 Pro con un rendimiento mejorado para tareas de codificación. En diciembre, Google presentó el modelo experimental Gemini 2.0 Flash, que ofrece compatibilidad con imágenes generadas de forma nativa y capacidades de audio multilingüe.
Pregunte al asistente de fotografía
Durante Google I/O 2024, se presentó el asistente Ask Photos. Este asistente digital, desarrollado por Gemini, está diseñado para examinar tu galería, generar títulos personalizados y crear instantáneas de tus viajes.
Expansión hacia la educación
En mayo, Google amplió las funcionalidades de Gemini al ámbito educativo con el lanzamiento de dos nuevos complementos: Gemini Education y Gemini Education Premium. Estas funciones incluyen capacidades de toma de notas basadas en IA y medidas de protección de datos mejoradas.
Incorporación de Gemini en aplicaciones de espacio de trabajo
Siguiendo con su misión de integrar la IA en todas sus plataformas, Google presentó en junio los paneles laterales de Gemini dentro de las aplicaciones de Workspace. Estos paneles personalizan la funcionalidad en función del contexto de la aplicación. Por ejemplo, Gemini puede resumir hilos de correo electrónico en Gmail o ayudar a crear diapositivas de presentaciones en Google Slides.
En noviembre, se agregó el panel lateral Gemini a Google Chat, lo que permite a los usuarios resumir las conversaciones de manera eficiente.
Presentamos Gemini Live
En el evento de hardware Pixel de agosto, Google lanzó Gemini Live, que crea una experiencia de conversación dinámica con el chatbot de IA. Los usuarios pueden participar en un diálogo natural y reanudar conversaciones incluso mientras la aplicación se ejecuta en segundo plano o mientras sus dispositivos están bloqueados.
Esta función, que inicialmente formaba parte del plan Gemini Advanced, luego estuvo disponible para todos los usuarios a través de la aplicación Gemini tanto en Android como en iOS; poco tiempo después se agregó soporte para más de 40 idiomas.
Creando gemas personalizadas
Con la introducción de Custom Gems, los usuarios ahora pueden personalizar sus propios chatbots Gemini para tareas específicas, ya sea generando ideas para eventos o actuando como tutores virtuales.
Esta función premium está disponible para los usuarios de los planes Gemini Advanced, Business y Enterprise en más de 150 países. Los usuarios pueden explorar gemas predefinidas o crear nuevas directamente a través del administrador de gemas.
Lanzamiento de Imagen 3 y Whisk Generator
En octubre, Google lanzó Imagen 3, su modelo de generación de texto a imagen de primer nivel, que se integra perfectamente con el ecosistema Gemini y es compatible con todos los idiomas. Este modelo mejora la comprensión de las instrucciones del usuario, lo que permite la creación de paisajes fotorrealistas, pinturas artísticas y escenas imaginativas, con la posibilidad de realizar mejoras posteriores.
Además de Imagen 3, Google presentó la herramienta Whisk, que permite la generación de imágenes a partir de imágenes existentes, ampliando aún más su oferta creativa.
Colaboraciones de Gemini con Opera y Snapchat
Google se asoció con Opera para integrar las funcionalidades de Gemini en su inteligencia artificial en el navegador Aria, mejorando la experiencia de navegación con capacidades avanzadas de generación de texto a voz e imágenes.
Además, Snapchat colaboró con Google para mejorar su chatbot My AI, lo que dio como resultado una experiencia multimodal más sofisticada. Los informes indican que esta integración multiplicó por 2,5 la participación de los usuarios en la plataforma en los Estados Unidos.
Investigación profunda: un nuevo asistente de investigación con inteligencia artificial
Para quienes realizan investigaciones extensas, el nuevo asistente de investigación profunda tiene como objetivo agilizar el proceso. Esta herramienta facilita el análisis exhaustivo de documentos, los resúmenes y la extracción de información crítica de grandes conjuntos de datos.
También estamos presentando una nueva función llamada Investigación profunda en Gemini Advanced, un asistente de investigación que puede profundizar en temas complejos y crear informes para usted con enlaces a las fuentes relevantes. pic.twitter.com/imYd4tktEG
– Sundar Pichai (@sundarpichai) 11 de diciembre de 2024
Deep Research está disponible como parte de Gemini Advanced y admite más de 45 idiomas en más de 150 países.
Navegación con lenguaje natural en Maps
Una mejora reciente de Google Maps permite ahora a los usuarios realizar búsquedas en lenguaje natural. Por ejemplo, si escribes “cosas para hacer con amigos por la noche”, aparecen reseñas resumidas de ubicaciones sugeridas, lo que ofrece una experiencia de navegación más intuitiva.
Transmisión desde Spotify
Con las últimas actualizaciones de Gemini, se introdujo la compatibilidad con Spotify junto con YouTube Music. Los usuarios ahora pueden solicitar canciones, explorar listas de reproducción y buscar música usando letras a través de la interfaz de Gemini en Android, siempre que tengan una cuenta Spotify Premium.
Controversias en torno a Géminis
A pesar de sus avances, Gemini de Google ha enfrentado controversias. En febrero, la función de generación de imágenes fue criticada por parcialidad, lo que llevó a una suspensión temporal del servicio mientras Google abordaba las inquietudes.
Otros informes señalaron incidentes de resumen de PDF no autorizado, incluso cuando se habían desactivado configuraciones específicas. Además, los hallazgos revelaron que un equipo de contratistas ayudó a evaluar el resultado de Gemini en comparación con modelos de la competencia, lo que planteó preguntas sobre las similitudes en las respuestas.
Deja una respuesta