Das Jahr 2024 hat die Technologielandschaft erheblich verändert, insbesondere bei Google, das unter dem Namen Gemini eine Reihe von KI-Innovationen vorstellte. Diese Initiative zeichnet sich neben mehreren grundlegenden KI-Modellen vor allem durch den Konversations-Chatbot aus.
Im Laufe des Jahres hat Google zahlreiche Produkte und Verbesserungen im Bereich der generativen KI eingeführt. Neben den Highlights dieser neuen Gemini-Funktionen lohnt es sich, die verschiedenen Produkte zu erkunden, die der Technologieriese 2024 aus dem Programm nimmt, sowie die erwartete Wunschliste für Instagram-Funktionen.
Hinweis: Die folgende Liste hebt in erster Linie die wichtigsten im Jahr 2024 veröffentlichten Gemini-Funktionen hervor, umfasst jedoch nicht alle Entwicklungen.
Von Bard zu Gemini: Die Rebranding-Revolution
Eine große Veränderung in diesem Jahr war die Umbenennung des Chatbots Bard in Gemini, wobei Google die Namenskonvention an die bereits bestehenden Modelle anpasste. Parallel zu dieser Umstellung führte das Technologieunternehmen das Modell Gemini 1.0 Pro ein und machte den Chatbot in über 40 Sprachen in 230 Ländern verfügbar.
Ein Google-Ingenieur erläuterte die Symbolik hinter dem Namen Gemini und verglich ihn mit dem für seine Dualität bekannten Sternzeichen, das mit der Fähigkeit der Geminis übereinstimmt, verschiedene Datentypen zu verarbeiten. Darüber hinaus ist der Name eine Hommage an das Projekt Gemini der NASA, eine Initiative zur Erforschung des Mondes in den frühen Stadien.
Einführung mobiler Apps und des Abonnementmodells
Im Februar stellte Google die Gemini-App für Android vor und verdrängte damit Google Assistant als Standard-Sprachassistent. Während Android-Nutzer den neuen Chatbot begrüßten, konnten iOS-Nutzer über die Google-App darauf zugreifen.
Im selben Monat wurde der kostenpflichtige Abonnementdienst „Gemini Advanced“ eingeführt, der Benutzern Zugriff auf die fortschrittlichsten Modelle gewährt, darunter Gemini Ultra 1.0, 1.5 Pro und experimentelle Versionen wie Gemini-Exp-1206.
Darüber hinaus wurden Funktionen wie „Help Me Write“ auf Chromebook Plus-Geräten verfügbar, die eine praktische Gemini-Schaltfläche in der App-Ablage des Startbildschirms bieten.
Integration von KI in Google Maps
Im März erhöhte Google den Nutzen des Gemini-Chatbots durch die Integration der Unterstützung für Google Maps. Benutzer können nun Navigationsbefehle direkt über den Chatbot erteilen.
Ein Benutzer kann zum Beispiel sagen: „Navigier mich zu [X]“, woraufhin Gemini Informationen wie Reisedistanz, voraussichtliche Dauer und einen Link zu Google Maps liefert, das kurz darauf die Navigation startet.
Einführung von Vids: Ein neues Tool zur Videoerstellung
Im April brachte Google Vids auf den Markt, ein von Gemini erweitertes Tool, das die Videoerstellung für Schulungen, Marketing und andere Zwecke vereinfachen soll. Mit einer zeitleistenähnlichen Oberfläche können Benutzer nahtlos Video-Assets aus Google Drive zusammenstellen, Voiceovers aufnehmen oder direkt aus der Anwendung filmen.
Mithilfe der Zusammenarbeitsfunktionen können Benutzer verwalten, wer ihre Projekte bearbeiten, kommentieren oder anzeigen kann. Beachten Sie, dass Google Vids ein kostenpflichtiges Add-on innerhalb der Workspace-Suite ist.
YouTube Music Integration
Im Mai wurde eine neue YouTube Music-Erweiterung eingeführt, die es Gemini-Benutzern ermöglicht, mit YouTube Music zu interagieren, um Titel zu entdecken, Radiosender zu hören und neue Künstler und Playlists zu entdecken.
Kontinuierliche Weiterentwicklung: Neue Gemini-Modelle
Im Jahr 2024 gab es auch verschiedene Upgrades für Gemini-Modelle. Die Einführung von Gemini 1.5 Flash im Mai bot ein leichtes LLM, das für Aufgaben wie Zusammenfassung, Chat-Interaktionen, Bild- und Videountertitelung und Datenextraktion optimiert ist.
Zu den weiteren Verbesserungen gehörten eine kompaktere Version namens Gemini 1.5 Flash-8B und ein neues Gemini 1.5 Pro-Modell mit verbesserter Leistung für Codierungsaufgaben. Im Dezember stellte Google das experimentelle Gemini 2.0 Flash-Modell vor, das nativ generierte Bilder und mehrsprachige Audiofunktionen unterstützt.
Fragen Sie den Fotos-Assistenten
Während der Google I/O 2024 wurde der Ask Photos-Assistent vorgestellt. Dieser digitale Helfer, der von Gemini betrieben wird, ist dazu gedacht, Ihre Galerie zu durchsuchen, personalisierte Bildunterschriften zu erstellen und Schnappschüsse von Ihren Reisen zu machen.
Expansion in den Bildungsbereich
Im Mai erweiterte Google die Gemini-Funktionalitäten auf den Bildungsbereich, indem es zwei neue Add-ons herausbrachte: Gemini Education und Gemini Education Premium. Zu diesen Funktionen gehören KI-gestützte Notizfunktionen und verbesserte Datenschutzmaßnahmen.
Einbetten von Gemini in Workspace-Anwendungen
Google setzt seine Mission fort, KI plattformübergreifend zu integrieren und hat im Juni Gemini-Seitenpanels in Workspace-Anwendungen vorgestellt. Diese Panels passen die Funktionalität je nach Kontext der App an. So kann Gemini beispielsweise E-Mail-Threads in Gmail zusammenfassen oder bei der Erstellung von Präsentationsfolien in Google Slides helfen.
Im November wurde Google Chat um die Seitenleiste „Gemini“ erweitert, mit der Benutzer Unterhaltungen effizient zusammenfassen können.
Wir stellen vor: Gemini Live
Beim Pixel-Hardware-Event im August stellte Google Gemini Live vor und schuf damit ein dynamisches Gesprächserlebnis mit dem KI-Chatbot. Benutzer können natürliche Dialoge führen und Gespräche fortsetzen, selbst wenn die App im Hintergrund läuft oder ihre Geräte gesperrt sind.
Diese Funktion war zunächst Teil des Gemini Advanced-Plans und wurde später allen Benutzern über die Gemini-App sowohl für Android als auch für iOS zur Verfügung gestellt. Kurz darauf wurde die Unterstützung für über 40 Sprachen hinzugefügt.
Erstellen individueller Edelsteine
Mit der Einführung von Custom Gems können Benutzer jetzt ihre eigenen Gemini-Chatbots für bestimmte Aufgaben anpassen, sei es zum Brainstorming von Ideen für Veranstaltungen oder für den Einsatz als virtuelle Tutoren.
Diese Premiumfunktion steht Nutzern der Gemini Advanced-, Business- und Enterprise-Pläne in über 150 Ländern zur Verfügung. Benutzer können vorgefertigte Gems erkunden oder direkt über den Gem-Manager neue erstellen.
Einführung von Imagen 3 und Whisk Generator
Im Oktober veröffentlichte Google Imagen 3, sein erstklassiges Text-zu-Bild-Generierungsmodell, das sich nahtlos in das Gemini-Ökosystem einfügt und alle Sprachen unterstützt. Dieses Modell verbessert das Verständnis von Benutzeranweisungen und ermöglicht die Erstellung fotorealistischer Landschaften, künstlerischer Gemälde und fantasievoller Szenen mit der Möglichkeit späterer Verfeinerungen.
Zusätzlich zu Imagen 3 hat Google das Tool Whisk vorgestellt, das die Bildgenerierung aus vorhandenen Bildern ermöglicht und so sein kreatives Angebot weiter ausbaut.
Gemini-Kooperationen mit Opera und Snapchat
Google ist eine Partnerschaft mit Opera eingegangen, um die Funktionen von Gemini in die Browser-KI Aria zu integrieren und so das Browser-Erlebnis durch erweiterte Funktionen zur Text-zu-Sprache- und Bildgenerierung zu verbessern.
Darüber hinaus arbeitete Snapchat mit Google zusammen, um seinen Chatbot My AI zu verbessern, was zu einem ausgefeilteren multimodalen Erlebnis führte. Berichten zufolge steigerte diese Integration das Benutzerengagement auf der Plattform in den USA um das 2,5-fache.
Deep Research: Ein neuer KI-Forschungsassistent
Für diejenigen, die umfangreiche Recherchen durchführen, soll der neue Deep Research-Assistent den Prozess rationalisieren. Dieses Tool erleichtert die gründliche Dokumentenanalyse, Zusammenfassungen und Extraktion wichtiger Erkenntnisse aus großen Datensätzen.
Wir führen in Gemini Advanced außerdem eine neue Agentenfunktion namens „Deep Research“ ein, einen Rechercheassistenten, der sich in komplexe Themen vertiefen und für Sie Berichte mit Links zu den relevanten Quellen erstellen kann. pic.twitter.com/imYd4tktEG
— Sundar Pichai (@sundarpichai) 11. Dezember 2024
Deep Research ist als Teil von Gemini Advanced verfügbar und unterstützt über 45 Sprachen in mehr als 150 Ländern.
Navigieren mit natürlicher Sprache in Karten
Eine kürzliche Erweiterung von Google Maps ermöglicht es Benutzern nun, Suchanfragen in natürlicher Sprache durchzuführen. Wenn Sie beispielsweise „Unternehmungen mit Freunden am Abend“ eingeben, werden zusammengefasste Bewertungen der vorgeschlagenen Orte angezeigt, was ein intuitiveres Surferlebnis ermöglicht.
Streaming von Spotify
Mit den neuesten Updates von Gemini wurde neben YouTube Music auch die Kompatibilität mit Spotify eingeführt. Benutzer können nun über die Gemini-Oberfläche auf Android Songs anfordern, Wiedergabelisten durchsuchen und Musik anhand von Liedtexten suchen, sofern sie über ein Spotify Premium-Konto verfügen.
Kontroversen um Zwillinge
Trotz seiner Fortschritte ist Googles Gemini mit Kontroversen konfrontiert. Im Februar wurde die Funktion zur Bildgenerierung wegen Voreingenommenheit kritisiert, was zu einer vorübergehenden Aussetzung des Dienstes führte, während Google sich um die Bedenken kümmerte.
In anderen Berichten wurde von Fällen nicht autorisierter PDF-Zusammenfassungen berichtet, selbst wenn bestimmte Einstellungen deaktiviert waren. Darüber hinaus ergaben die Ergebnisse, dass ein Team von Vertragspartnern dabei half, die Ergebnisse von Gemini mit denen konkurrierender Modelle zu vergleichen, was Fragen zu Ähnlichkeiten der Antworten aufwirft.
Schreibe einen Kommentar