Investigadores de Apple descubren un método para permitir conversaciones más rápidas y naturales con Siri

Investigadores de Apple descubren un método para permitir conversaciones más rápidas y naturales con Siri

Si bien Apple ha recurrido recientemente a la tecnología Gemini de Google para abordar algunas de sus limitaciones de inteligencia artificial, los equipos de investigación de la compañía en Cupertino están buscando incansablemente estrategias innovadoras para mejorar el rendimiento de Siri.

Un artículo de investigación reciente publicado por investigadores de Apple busca lograr interacciones más rápidas y con un sonido más natural con Siri, lo que marca un paso significativo en su esfuerzo continuo por perfeccionar el asistente digital.

Desbloqueo de respuestas más rápidas con grupos de similitud acústica

Tradicionalmente, los modelos de voz de IA generan el habla mediante tokens: breves segmentos de sonidos fonéticos que duran apenas milisegundos. Estos modelos emplean un método autorregresivo para seleccionar el sonido fonético adecuado, lo que suele provocar un retraso considerable en la respuesta. Este enfoque también puede provocar pronunciaciones extrañas debido a la limitada selección de fragmentos fonéticos utilizados para el entrenamiento.

En su último estudio, investigadores de Apple proponen una alternativa innovadora. Sugieren adoptar Grupos de Similitud Acústica (GSA) para reemplazar el sistema convencional de coincidencia de tokens. Los GSA agrupan tokens de voz según las similitudes perceptuales del sonido, con cierta superposición entre grupos. Al incorporar técnicas de búsqueda probabilística en estos GSA, los modelos de IA pueden identificar el token de voz más adecuado con mucha mayor rapidez.

Si bien esta propuesta puede no ser revolucionaria, subraya el compromiso de Apple con el desarrollo de sus capacidades de IA y aprendizaje automático. Esta iniciativa demuestra además la intención de Apple de crear una solución de IA totalmente integrada para sus dispositivos, dejando de depender de tecnologías de terceros como Gemini de Google.

Fuente e imágenes

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *