Embora a Apple tenha recentemente recorrido à tecnologia Gemini do Google para lidar com algumas de suas limitações de IA, as equipes de pesquisa da empresa em Cupertino estão buscando incansavelmente estratégias inovadoras para aprimorar o desempenho da Siri.
Um estudo recente publicado por pesquisadores da Apple busca alcançar interações mais rápidas e com som mais natural com a Siri, marcando um passo significativo em seu esforço contínuo para aprimorar a assistente digital.
Obtendo respostas mais rápidas com grupos de similaridade acústica.
Tradicionalmente, os modelos de voz de IA geram fala utilizando tokens — breves segmentos de sons fonéticos que duram meros milissegundos. Esses modelos utilizam um método autorregressivo para selecionar o som fonético apropriado, o que frequentemente resulta em um atraso perceptível na resposta. Essa abordagem também pode levar a pronúncias estranhas devido à seleção limitada de trechos fonéticos usados para o treinamento.
Em seu estudo mais recente, pesquisadores da Apple propõem uma alternativa inovadora. Eles sugerem a adoção de Grupos de Similaridade Acústica (ASGs, na sigla em inglês) para substituir o sistema convencional de correspondência de tokens. Os ASGs agrupam tokens de fala com base em similaridades perceptivas no som, com alguma sobreposição entre os grupos. Ao incorporar técnicas de busca probabilística nesses ASGs, os modelos de IA podem identificar o token de fala mais adequado muito mais rapidamente.
Embora esta proposta possa não ser revolucionária, ela reforça o compromisso da Apple em aprimorar suas capacidades de IA e aprendizado de máquina. Essa iniciativa indica ainda a intenção da Apple de criar uma solução de IA totalmente integrada para seus dispositivos, deixando de depender de tecnologias de terceiros, como o Gemini do Google.
Deixe um comentário