Chociaż Apple niedawno wykorzystało technologię Gemini firmy Google, aby uporać się z niektórymi ograniczeniami swojej sztucznej inteligencji, zespoły badawcze firmy w Cupertino nieustannie poszukują innowacyjnych strategii mających na celu zwiększenie wydajności Siri.
Naukowcy Apple opublikowali niedawno raport badawczy, którego celem jest umożliwienie szybszej i bardziej naturalnej interakcji z Siri. Jest to ważny krok w trwających pracach nad udoskonaleniem asystenta cyfrowego.
Odblokowywanie szybszych odpowiedzi dzięki grupom podobieństwa akustycznego
Tradycyjnie modele głosu AI generują mowę, wykorzystując tokeny – krótkie segmenty dźwięków fonetycznych trwające zaledwie milisekundy. Modele te wykorzystują metodę autoregresyjną do wyboru odpowiedniego dźwięku fonetycznego, co często powoduje zauważalne opóźnienie w reakcji. Takie podejście może również prowadzić do niepoprawnej wymowy ze względu na ograniczony wybór fragmentów fonetycznych użytych do treningu.
W swoim najnowszym badaniu naukowcy Apple proponują innowacyjną alternatywę. Sugerują oni zastąpienie konwencjonalnego systemu dopasowywania tokenów za pomocą grup podobieństwa akustycznego (ASG).Grupy ASG grupują tokeny mowy na podstawie percepcyjnych podobieństw dźwięku, z pewnym nakładaniem się między grupami. Dzięki zastosowaniu probabilistycznych technik wyszukiwania w ramach tych grup ASG, modele sztucznej inteligencji mogą znacznie szybciej identyfikować najodpowiedniejszy token mowy.
Choć ta propozycja może nie być rewolucyjna, podkreśla zaangażowanie Apple w rozwój możliwości sztucznej inteligencji (AI) i uczenia maszynowego. Inicjatywa ta dodatkowo wskazuje na zamiar Apple stworzenia w pełni zintegrowanego rozwiązania AI dla swoich urządzeń, odchodząc od polegania na technologiach innych firm, takich jak Google Gemini.
Dodaj komentarz