Les juges de l’IA améliorent les capacités de vérification des faits et les compétences de codage

L’essor de l’IA dans l’évaluation des modèles linguistiques : une nouvelle approche

Dans le domaine de l’intelligence artificielle, les chercheurs adoptent de plus en plus de grands modèles de langage (MLL) pour analyser les résultats générés par leurs homologues. Cette méthodologie, appelée « MLL-as-a-judge », vise à améliorer les capacités d’évaluation au sein de l’écosystème de l’IA. Cependant, des difficultés surviennent lors de l’évaluation de tâches complexes telles que la vérification factuelle détaillée, la programmation avancée et la résolution de problèmes mathématiques.

Solutions innovantes de l’Université de Cambridge et d’Apple

Une étude récente menée par des experts universitaires de l’Université de Cambridge en collaboration avec Apple a présenté un système révolutionnaire conçu pour améliorer la précision des évaluations d’IA. Ce cadre innovant, détaillé dans l’article intitulé « Validation externe pour les grands modèles linguistiques », intègre des outils de validation externes visant à pallier les limites des annotateurs humains et IA.

Aborder les limites des évaluations humaines et de l’IA

Le jugement humain et l’évaluation par l’IA sont tous deux confrontés à des défis inhérents. Les annotateurs humains sont souvent confrontés à des biais, des contraintes de temps et à la fatigue, ce qui peut biaiser leurs évaluations en faveur de préférences stylistiques plutôt que de l’exactitude factuelle.À l’inverse, les systèmes d’IA peinent souvent à gérer les subtilités des tâches complexes, ce qui entraîne des évaluations moins fiables.

Présentation de l’agent d’évaluation

Le nouvel agent d’évaluation se distingue par ses multiples facettes, capable de déterminer de manière autonome la nécessité de mettre en œuvre des outils de validation externes lors des évaluations. Cet agent suit un processus en trois étapes : réaliser une évaluation initiale du domaine, utiliser les outils appropriés et parvenir à une conclusion finale. La conception stratégique de ce système renforce sa capacité d’évaluation pour diverses tâches.

Comment fonctionnent les outils

Des outils spécifiques ont été intégrés au cadre de l’agent d’évaluation pour améliorer la précision des tâches :

Outil de vérification des faits : utilise des recherches sur le Web pour vérifier les faits présentés dans les réponses.
Outil d’exécution de code : utilise l’interpréteur de code d’OpenAI pour valider les sorties de programmation.
Math Checker : un outil spécialisé dédié à la confirmation des équations et calculs mathématiques.

Lorsque les outils externes ne fournissent pas de résultats suffisants pour des évaluations précises, l’annotateur LLM de référence est utilisé. Cette approche minimise le traitement inutile tout en préservant les performances sur les tâches simples.

Résultats prometteurs et intégration future

La mise en œuvre de ce cadre a montré des améliorations notables, notamment dans la vérification factuelle détaillée, conduisant à une augmentation notable de l’alignement avec les annotations de vérité terrain. Dans les tâches de codage, une stratégie basée sur des agents a considérablement amélioré les performances sur plusieurs tests de référence. Pour les défis mathématiques, malgré des améliorations, la concordance globale avec les repères existants est restée faible, notamment autour de 56 %.Il est intéressant de noter que l’étude a révélé que lors de l’évaluation des réponses détaillées, la précision de l’agent surpassait celle des évaluateurs humains.

À l’avenir, le framework est conçu dans une optique d’extensibilité, permettant l’intégration future d’outils de validation supplémentaires pour affiner les capacités d’évaluation des LLM. Dans le cadre de son engagement en faveur de l’innovation et de la collaboration, Apple prévoit de publier le code de ce framework en open source sur GitHub, bien qu’il ne soit pas encore disponible.

Source et images