Los jueces de IA mejoran las capacidades de verificación de datos y las habilidades de codificación

Imagen vía Pixabay

El auge de la IA en la evaluación de modelos lingüísticos: un nuevo enfoque

En el ámbito de la inteligencia artificial, los investigadores adoptan cada vez más modelos de lenguaje extenso (LLM) para analizar los resultados generados por sus homólogos. Esta metodología, conocida como «LLM como juez», busca mejorar las capacidades de evaluación dentro del ecosistema de IA. Sin embargo, surgen desafíos durante la evaluación de tareas complejas, como la verificación de hechos de formato largo, la programación avanzada y la resolución de problemas matemáticos.

Soluciones innovadoras de la Universidad de Cambridge y Apple

Un estudio reciente realizado por expertos académicos de la Universidad de Cambridge, en colaboración con Apple, ha presentado un sistema innovador diseñado para mejorar la precisión de las evaluaciones de IA. Este innovador marco, detallado en el artículo titulado «Validación externa para modelos lingüísticos extensos», incorpora herramientas de validación externa destinadas a abordar las limitaciones de los anotadores, tanto humanos como de IA.

Abordar las limitaciones de las evaluaciones humanas y de IA

Tanto el juicio humano como la evaluación de IA se enfrentan a desafíos inherentes. Los anotadores humanos a menudo lidian con sesgos, limitaciones de tiempo y fatiga, lo que puede sesgar sus evaluaciones hacia preferencias estilísticas en lugar de la precisión fáctica. Por otro lado, los sistemas de IA suelen tener dificultades con las complejidades de las tareas complejas, lo que resulta en evaluaciones menos fiables.

Presentando al Agente de Evaluación

El Agente de Evaluación, recientemente desarrollado, destaca como una herramienta multifacética que puede determinar de forma autónoma la necesidad de implementar herramientas de validación externa durante las evaluaciones. Este agente sigue un proceso de tres pasos: realizar una evaluación inicial del dominio, utilizar las herramientas adecuadas y llegar a una conclusión final. El diseño estratégico de este sistema optimiza su capacidad de evaluación en diversas tareas.

Cómo funcionan las herramientas

Se han integrado herramientas específicas en el marco del Agente de evaluación para mejorar la precisión de las tareas:

Herramienta de verificación de hechos: utiliza búsquedas en la web para verificar los hechos presentados en las respuestas.
Herramienta de ejecución de código: utiliza el intérprete de código de OpenAI para validar las salidas de programación.
Comprobador matemático: una herramienta especializada dedicada a confirmar ecuaciones y cálculos matemáticos.

En situaciones donde las herramientas externas no generan resultados suficientes para realizar evaluaciones precisas, se utiliza el anotador LLM de referencia. Este enfoque minimiza el procesamiento innecesario y mantiene el rendimiento en tareas sencillas.

Resultados prometedores e integración futura

La implementación de este marco ha mostrado mejoras notables, especialmente en la verificación de datos de formato largo, lo que ha dado lugar a un aumento notable en la alineación con las anotaciones de la verdad fundamental. En las tareas de codificación, una estrategia basada en agentes mejoró significativamente el rendimiento en múltiples líneas base de prueba. En el caso de los desafíos matemáticos, si bien se observaron mejoras, la concordancia general con los parámetros de referencia existentes se mantuvo baja, en particular en torno al 56 %.Curiosamente, el estudio reveló que, al evaluar las respuestas de formato largo, la precisión del agente superó la de los evaluadores humanos.

De cara al futuro, el marco está diseñado con extensibilidad en mente, lo que permite la futura integración de herramientas de validación adicionales para perfeccionar aún más las capacidades de evaluación de LLM. Como parte de su compromiso con la innovación y la colaboración, Apple planea publicar el código de este marco como código abierto en GitHub, aunque aún no está disponible.

Fuente e imágenes