Google wprowadza Veo: swój generatywny model wideo AI, pozostawiając Sora firmy OpenAI nieobecną na rynku

Konkurencyjny krajobraz generatywnej AI zaostrza się, ponieważ firmy starają się potwierdzić swoją dominację i odkrywać innowacyjne możliwości. OpenAI nadal poszerza swoje horyzonty, wprowadzając ulepszenia do swojej technologii, jednak jego wyczekiwany model inteligencji do produkcji wideo, znany jako Sora, nadal nie jest dostępny dla użytkowników. Tymczasem Google czyni znaczące postępy w tworzeniu treści, publicznie prezentując swój generatywny model AI, Veo, obecnie w prywatnej wersji zapoznawczej.

Google obejmuje prowadzenie dzięki Veo w wersji Private Preview

Chociaż OpenAI było pionierem we wprowadzeniu generatywnego modelu wideo AI z Sora w lutym, prezentując jego zdolność do generowania 60-sekundowych filmów z tekstowych danych wejściowych, Google znalazło się teraz w centrum uwagi. Gigant technologiczny oficjalnie uruchomił Veo w prywatnej wersji zapoznawczej za pośrednictwem swojej platformy Vertex AI, co oznacza krytyczny postęp w technologii generatywnego wideo.

Ta wersja pojawia się zaledwie kilka miesięcy po demonstracji Sora przez OpenAI, która miała miejsce podczas konferencji deweloperów I/O. Google zachwalało rozbudowane funkcjonalności Veo, twierdząc, że może ono produkować wysokiej jakości filmy o długości przekraczającej minutę. Użytkownicy mają do wyboru wiele stylów wizualnych i filmowych, chociaż szczegóły dotyczące konkretnych długości generowanych filmów są nadal skąpe. Wstępne próbki ujawniają, że nowo wyprodukowana treść jest uderzająco realistyczna, często nieodróżnialna od autentycznych materiałów, chyba że zostanie dokładnie zbadana.

Google wprowadził na rynek swój model Veo w ramach prywatnej wersji zapoznawczej

Oprócz Veo, Google zamierza wprowadzić Imagen 3, zaawansowany generator AI do przetwarzania tekstu na obraz, dla klientów Google Cloud jako część swoich nadchodzących funkcji. To wdrożenie, zaplanowane na przyszły tydzień, będzie początkowo dostępne dla wybranych użytkowników na liście dozwolonych, oferując różnorodne opcje dostosowywania, w tym edycję zdjęć opartą na monitach i możliwość modyfikowania logo i innych elementów w generowanych obrazach.

Google podkreśla, że zarówno Veo, jak i Imagen 3 są wyposażone w solidne wbudowane zabezpieczenia, które łagodzą naruszenia treści i eliminują nieodpowiednie wyniki. Niemniej jednak wstępne testy sugerują, że te zabezpieczenia nie są całkowicie niezawodne. Wygenerowana treść zawiera niewidoczny cyfrowy znak wodny utworzony za pomocą technologii SynthID firmy DeepMind, ułatwiający identyfikację materiałów generowanych przez AI.

Po premierze Veo, OpenAI mierzy się z coraz większą presją wydania Sora, na którą użytkownicy czekali z niecierpliwością od momentu jej ogłoszenia, a która ma zostać udostępniona pod koniec 2024 roku.

Źródło i obrazy