Des chercheurs d’Apple découvrent une méthode pour permettre des conversations plus rapides et plus naturelles avec Siri.

Bien qu’Apple ait récemment eu recours à la technologie Gemini de Google pour pallier certaines de ses limitations en matière d’IA, ses équipes de recherche à Cupertino poursuivent sans relâche des stratégies innovantes pour améliorer les performances de Siri.

Un récent article de recherche publié par des chercheurs d’Apple vise à obtenir des interactions plus rapides et plus naturelles avec Siri, ce qui représente une étape importante dans leurs efforts continus pour perfectionner l’assistant numérique.

Débloquer des réponses plus rapides grâce aux groupes de similarité acoustique

Traditionnellement, les modèles vocaux d’IA génèrent la parole à partir de tokens — de brefs segments de sons phonétiques ne durant que quelques millisecondes. Ces modèles utilisent une méthode autorégressive pour sélectionner le son phonétique approprié, ce qui entraîne souvent un délai perceptible lors de la réponse. Cette approche peut également conduire à des prononciations maladroites en raison du nombre limité de fragments phonétiques utilisés pour l’entraînement.

Dans leur dernière étude, des chercheurs d’Apple proposent une alternative novatrice : l’adoption de groupes de similarité acoustique (ASG) en remplacement du système classique de correspondance de jetons. Les ASG regroupent les jetons vocaux en fonction de leurs similarités sonores perceptives, avec un certain chevauchement entre les groupes. En intégrant des techniques de recherche probabiliste au sein de ces ASG, les modèles d’IA peuvent identifier le jeton vocal le plus pertinent beaucoup plus rapidement.

Bien que cette proposition ne soit pas révolutionnaire, elle souligne l’engagement d’Apple à faire progresser ses capacités en intelligence artificielle et en apprentissage automatique. Cette initiative témoigne également de la volonté d’Apple de créer une solution d’IA entièrement intégrée pour ses appareils, s’affranchissant ainsi de la dépendance aux technologies tierces telles que Gemini de Google.

Source et images