Główne funkcje Google Gemini zostaną uruchomione w 2024 r., gdy wkraczamy w 2025 r.

Rok 2024 znacząco zmienił krajobraz technologiczny, szczególnie w Google, które zaprezentowało szereg innowacji AI pod szyldem Gemini. Ta inicjatywa wyróżnia konwersacyjnego chatbota obok wielu podstawowych modeli AI.

Przez cały rok Google wprowadziło liczne produkty i ulepszenia w dziedzinie generatywnej AI. Oprócz najważniejszych cech tych nowych funkcji Gemini, warto zbadać różne produkty, które gigant technologiczny wycofał w 2024 r., wraz z oczekiwaną listą życzeń funkcji Instagrama.

Uwaga: Poniższa lista zawiera przede wszystkim najważniejsze funkcje Gemini wydane w 2024 r., ale nie obejmuje wszystkich udoskonaleń.

Od Barda do Gemini: rewolucja w rebrandingu

W tym roku Google dokonało dużej transformacji, zmieniając nazwę swojego chatbota Bard na Gemini, dostosowując konwencję nazewnictwa do swoich wcześniejszych modeli. Wraz z tą transformacją firma technologiczna wprowadziła model Gemini 1.0 Pro i udostępniła chatbota w ponad 40 językach w 230 krajach.

Inżynier Google wyjaśnił symbolikę nazwy Gemini, odnosząc ją do znaku zodiaku znanego ze swojej dualności, co jest równoległe do zdolności Gemini do przetwarzania różnych typów danych. Ponadto nazwa ta oddaje hołd Project Gemini NASA, wczesnej inicjatywie eksploracji księżyca.

Wdrożenie aplikacji mobilnych i modelu subskrypcyjnego

W lutym Google zadebiutowało aplikacją Gemini na Androida, ostatecznie zastępując Asystenta Google jako domyślnego asystenta głosowego. Podczas gdy użytkownicy Androida przyjęli nowego chatbota, użytkownicy iOS mogli uzyskać do niego dostęp za pośrednictwem aplikacji Google.

W tym samym miesiącu wprowadzono płatną usługę subskrypcyjną o nazwie Gemini Advanced, zapewniającą użytkownikom dostęp do najbardziej zaawansowanych modeli, w tym Gemini Ultra 1.0, 1.5 Pro, a także wersji eksperymentalnych, takich jak Gemini-Exp-1206.

Ponadto funkcje takie jak „Pomóż mi pisać” stały się dostępne na urządzeniach Chromebook Plus, zapewniając wygodny przycisk Gemini na półce z aplikacjami na ekranie głównym.

Integracja sztucznej inteligencji z Mapami Google

W marcu Google podniosło użyteczność chatbota Gemini, integrując obsługę Map Google. Użytkownicy mogą teraz wydawać polecenia nawigacyjne bezpośrednio za pośrednictwem chatbota.

Mapy Google Gemini z automatycznym uruchamianiem

Na przykład użytkownik może powiedzieć „Przejdź do [X]”, co spowoduje, że Gemini poda informacje, takie jak odległość podróży, przewidywany czas trwania oraz link do Map Google, które wkrótce potem zainicjują nawigację.

Wprowadzenie do Vids: Nowe narzędzie do tworzenia filmów

W kwietniu Google uruchomiło Vids, narzędzie ulepszone przez Gemini, którego celem jest uproszczenie tworzenia filmów do celów szkoleniowych, marketingowych i innych. Dzięki interfejsowi w stylu osi czasu użytkownicy mogą bezproblemowo składać zasoby wideo z Google Drive, nagrywać narrację lub filmować bezpośrednio z aplikacji.

Funkcje współpracy pozwalają użytkownikom zarządzać tym, kto może edytować, komentować lub przeglądać ich projekty. Należy pamiętać, że Google Vids jest płatnym dodatkiem w pakiecie Workspace.

Integracja z YouTube Music

Rozszerzenie Google Gemini YouTube Music

W maju wprowadzono nowe rozszerzenie YouTube Music, dzięki któremu użytkownicy Gemini mogą połączyć się z YouTube Music, aby odkrywać utwory, słuchać stacji radiowych, a także poznawać nowych artystów i playlisty.

Ciągły rozwój: nowe modele Gemini

W 2024 r. wprowadzono również różne ulepszenia do modeli Gemini. Wprowadzenie Gemini 1.5 Flash w maju zapewniło lekki LLM zoptymalizowany pod kątem zadań takich jak podsumowywanie, interakcje na czacie, podpisy do obrazów i filmów oraz ekstrakcja danych.

Dalsze udoskonalenia obejmowały bardziej kompaktową wersję o nazwie Gemini 1.5 Flash-8B i nowy model Gemini 1.5 Pro, który może pochwalić się lepszą wydajnością w zadaniach kodowania. W grudniu Google ujawniło eksperymentalny model Gemini 2.0 Flash, oferujący obsługę natywnie generowanych obrazów i wielojęzycznych możliwości audio.

Zapytaj Asystenta Zdjęć

Podczas Google I/O 2024 zaprezentowano asystenta Ask Photos. Ten cyfrowy pomocnik, obsługiwany przez Gemini, został zaprojektowany do przeszukiwania galerii, generowania spersonalizowanych podpisów i tworzenia migawek z podróży.

Rozszerzenie na edukację

W maju Google rozszerzyło funkcjonalności Gemini na sferę edukacyjną, wprowadzając dwa nowe dodatki: Gemini Education i Gemini Education Premium. Funkcje te obejmują funkcje robienia notatek oparte na sztucznej inteligencji i ulepszone środki ochrony danych.

Osadzanie Gemini w aplikacjach Workspace

Kontynuując misję integrowania AI na swoich platformach, Google zaprezentowało panele boczne Gemini w aplikacjach Workspace w czerwcu. Panele te dostosowują funkcjonalność na podstawie kontekstu aplikacji. Na przykład Gemini może podsumowywać wątki e-maili w Gmailu lub pomagać w tworzeniu slajdów prezentacji w Google Slides.

W listopadzie do Google Chat dodano panel boczny Gemini, dzięki któremu użytkownicy mogą sprawnie podsumowywać rozmowy.

Przedstawiamy Gemini Live

Podczas wydarzenia Pixel Hardware w sierpniu Google uruchomiło Gemini Live, tworząc dynamiczne doświadczenie konwersacyjne z chatbotem AI. Użytkownicy mogą angażować się w naturalny dialog i wznawiać rozmowy, nawet gdy aplikacja działa w tle lub gdy ich urządzenia są zablokowane.

https://www.youtube.com/watch?v=fY5jwF7TQmE

Go Live with Gemini (https://www.youtube.com/watch?v=fY5jwF7TQmE)

Funkcja ta, początkowo będąca częścią planu Gemini Advanced, została później udostępniona wszystkim użytkownikom za pośrednictwem aplikacji Gemini na systemy Android i iOS, a wkrótce potem dodano obsługę ponad 40 języków.

Tworzenie niestandardowych klejnotów

Dzięki wprowadzeniu funkcji Custom Gems użytkownicy mogą teraz dostosowywać własne chatboty Gemini do konkretnych zadań, niezależnie od tego, czy mają one służyć do wymyślania pomysłów na wydarzenia, czy też pełnić rolę wirtualnych korepetytorów.

Ta funkcja premium jest dostępna dla użytkowników planów Gemini Advanced, Business i Enterprise w ponad 150 krajach. Użytkownicy mogą eksplorować gotowe klejnoty lub tworzyć nowe bezpośrednio za pomocą menedżera klejnotów.

Wprowadzenie na rynek Imagen 3 i Whisk Generator

W październiku Google wydało Imagen 3, swój topowy model generowania tekstu do obrazu, który płynnie integruje się z ekosystemem Gemini, obsługując wszystkie języki. Ten model poprawia zrozumienie instrukcji użytkownika, umożliwiając tworzenie fotorealistycznych krajobrazów, artystycznych obrazów i wyobrażeniowych scen, z możliwością późniejszego udoskonalenia.

Narzędzie do generowania obrazów Google Whisk

Oprócz Imagen 3 firma Google zaprezentowała narzędzie Whisk, umożliwiające generowanie obrazów z istniejących obrazów, co jeszcze bardziej rozszerzyło jej ofertę kreatywną.

Współpraca Gemini z Operą i Snapchatem

Google nawiązało współpracę z Operą w celu zintegrowania funkcjonalności Gemini ze sztuczną inteligencją przeglądarki Aria, ulepszając w ten sposób przeglądanie stron dzięki zaawansowanym możliwościom zamiany tekstu na mowę i generowania obrazów.

Ponadto Snapchat współpracował z Google, aby ulepszyć swojego chatbota My AI, co zaowocowało bardziej wyrafinowanym doświadczeniem multimodalnym. Raporty wskazują, że ta integracja zwiększyła zaangażowanie użytkowników na platformie o 2,5 raza w Stanach Zjednoczonych.

Głębokie badania: nowy asystent badawczy AI

Dla osób zajmujących się szeroko zakrojonymi badaniami nowy asystent Deep Research ma na celu usprawnienie procesu. To narzędzie ułatwia dogłębną analizę dokumentów, podsumowania i ekstrakcję kluczowych spostrzeżeń z dużych zestawów danych.

Wprowadzamy również nową funkcję agenta o nazwie Deep Research w Gemini Advanced, asystenta badawczego, który może zagłębiać się w złożone tematy i tworzyć dla Ciebie raporty z linkami do odpowiednich źródeł. pic.twitter.com/imYd4tktEG

— Sundar Pichai (@sundarpichai) 11 grudnia 2024 r

Usługa Deep Research jest dostępna w ramach pakietu Gemini Advanced i obsługuje ponad 45 języków w ponad 150 krajach.

Nawigowanie w Mapach przy użyciu języka naturalnego

Niedawne ulepszenie Google Maps pozwala teraz użytkownikom na wykonywanie wyszukiwań w języku naturalnym. Na przykład wpisanie „rzeczy do zrobienia ze znajomymi w nocy” daje podsumowane recenzje sugerowanych lokalizacji, oferując bardziej intuicyjne przeglądanie.

Transmisja strumieniowa z Spotify

Wraz z najnowszymi aktualizacjami Gemini wprowadzono kompatybilność ze Spotify, a także YouTube Music. Użytkownicy mogą teraz zamawiać utwory, przeglądać listy odtwarzania i wyszukiwać muzykę za pomocą tekstów piosenek za pośrednictwem interfejsu Gemini na Androidzie, pod warunkiem posiadania konta Spotify Premium.

Kontrowersje wokół Gemini

Pomimo postępów, Gemini firmy Google spotkało się z kontrowersjami. W lutym funkcja generowania obrazu została skrytykowana za stronniczość, co doprowadziło do tymczasowego zawieszenia usługi, podczas gdy Google zajmowało się problemami.

Inne raporty odnotowały incydenty nieautoryzowanego podsumowania PDF, nawet gdy określone ustawienia były wyłączone. Ponadto ustalenia ujawniły, że zespół wykonawców pomógł ocenić wyniki Gemini w porównaniu z konkurencyjnymi modelami, co wywołało pytania o podobieństwa odpowiedzi.

Źródło i obrazy