Ingenieros de Microsoft desarrollan agentes de IA confiables para uso informático.

Mejora de la fiabilidad de los agentes de IA con UI-Evol de Microsoft

En un emocionante avance, investigadores de Microsoft Research Asia han presentado un componente revolucionario llamado UI-Evol. Esta innovación está diseñada para mejorar la precisión y la fiabilidad de los agentes de IA para uso informático, algoritmos capaces de realizar tareas de forma autónoma interactuando con un sistema operativo. A pesar de sus avanzadas capacidades, estos modelos de IA históricamente han tenido dificultades con la precisión.

El desafío de la brecha entre el conocimiento y la acción

Los agentes de IA que interactúan con las computadoras suelen obtener información de internet para aprender a interactuar con las interfaces de usuario. Sin embargo, dada la naturaleza dinámica de estas interfaces, a menudo les resulta difícil aplicar sus conocimientos teóricos a las interacciones reales. Esta desconexión se conoce como brecha entre conocimiento y acción, un obstáculo importante que reduce su eficacia.

Un estudio reciente, destacado por Microsoft, subraya este problema: los agentes de IA que operan con instrucciones correctas en hasta un 90 % solo lograron completar la tarea con éxito el 41 % de las veces. Además, estos agentes muestran imprevisibilidad, ya que a menudo ejecutan la misma operación con resultados diferentes. Esta inconsistencia exigía una solución específica.

Presentamos UI-Evol

Presentamos UI-Evol: un componente versátil que se integra a la perfección en el flujo de trabajo de un agente de IA. Al aprovechar la información en tiempo real de la interfaz de usuario, UI-Evol está diseñado para refinar y actualizar continuamente el conocimiento de la interfaz de la IA. Este desarrollo mejora la fiabilidad y la precisión de estos agentes.

Cómo funciona UI-Evol

UI-Evol emplea un sencillo enfoque de dos pasos:

Retrazar: Este método consiste en registrar meticulosamente las acciones precisas que realiza un agente de IA —como clics, pulsaciones de teclas y decisiones— durante la realización de una tarea.
Análisis: Tras la grabación, este método compara las acciones del agente con las instrucciones externas establecidas. Si se detectan discrepancias, el sistema ajusta su base de conocimientos en consecuencia, garantizando así que refleje estrategias prácticas y eficaces dentro del entorno del software.

Eficacia comprobada

Para validar la eficacia de UI-Evol, se probó en el Agente S2, reconocido por ser uno de los agentes con mejor rendimiento en el uso de computadoras, utilizando el benchmark OSWorld. Los experimentos realizados con agentes entrenados con modelos de lenguaje líderes como GPT-4o y OpenAI-o3 arrojaron resultados impresionantes: mejoras significativas en las tasas de éxito de las tareas y mayor consistencia, lo que redujo la variabilidad del comportamiento de los agentes. Este desarrollo hace que los agentes de IA sean más fiables.

Implicaciones para el futuro

Con la introducción de UI-Evol, Microsoft está preparada para mejorar significativamente las capacidades de los agentes de IA en la automatización de oficinas y las tareas de asistente virtual. Esta mejora no solo posiciona a Microsoft como líder en investigación de IA, sino que también sienta las bases para un futuro en el que los agentes de IA puedan trabajar de forma más eficiente y fiable en diversas aplicaciones.

Imagen vía Depositphotos.com

Fuente e imágenes