Drame de Llama : le modèle d’IA « expérimental » de Meta améliore les classements, suscitant des inquiétudes quant à l’équité, la transparence et l’accessibilité des utilisateurs

Ce week-end, Meta a dévoilé deux versions innovantes de son IA Llama 4 : une version compacte baptisée Scout et une alternative de taille moyenne baptisée Maverick. L’entreprise se vante que Maverick surpasse ChatGPT-4o et Gemini 2.0 Flash dans de nombreux tests largement utilisés. Cependant, ces affirmations semblent cacher des failles.

Méta à l’étude : des affirmations trompeuses sur les performances des modèles d’IA suscitent la controverse

Après son lancement, Maverick s’est rapidement hissé au deuxième rang sur LMArena, une plateforme où les utilisateurs évaluent et votent sur les réponses de l’IA en fonction de leur pertinence et de leur précision. Cependant, la situation est plus complexe qu’il n’y paraît. L’ascension fulgurante de Maverick suscite un débat sur l’intégrité de ses indicateurs de performance.

Meta a fièrement annoncé l’impressionnant score ELO de Maverick (1417), le plaçant juste derrière Gemini 2.5 Pro et devant GPT-40. Si cela souligne la compétitivité de Meta en matière de modèle d’IA, la suite a suscité l’étonnement au sein de la communauté technologique. Les observateurs ont rapidement souligné des divergences dans les performances annoncées du modèle, ce qui a conduit Meta à admettre que la version soumise à l’évaluation de LMArena différait de la version grand public.

Plus précisément, Meta a fourni une variante de chat expérimentale, optimisée pour des fonctionnalités conversationnelles améliorées, comme l’a rapporté TechCrunch. En réponse, LMArena a souligné que « l’interprétation de notre politique par Meta ne correspondait pas à nos attentes envers les fournisseurs de modèles », demandant une plus grande clarté de la part de Meta concernant l’utilisation de la version « Llama-4-Maverick-03-26-Experimental », adaptée aux préférences humaines.

Suite à cet incident, LMArena a révisé ses règles de classement afin d’améliorer l’équité et la fiabilité des classements futurs. Un porte-parole de Meta a ensuite commenté la situation :

« Nous avons maintenant publié notre version open source et nous verrons comment les développeurs personnalisent Llama 4 pour leurs propres cas d’utilisation.»

Bien que Meta ait techniquement respecté les règles, le manque de transparence a suscité des inquiétudes quant à une possible manipulation des classements par l’utilisation d’une variante optimisée et non publique de son modèle. Simon Willison, chercheur indépendant en IA, a fait remarquer :

« Quand Llama 4 est sorti et a atteint la deuxième place, cela m’a vraiment impressionné — et je m’en veux de ne pas avoir lu les petits caractères.»

« C’est une version très déroutante en général… Le score du modèle que nous avons obtenu ne me sert à rien. Je ne peux même pas utiliser le modèle qui a obtenu un score élevé.»

Par ailleurs, des spéculations ont circulé selon lesquelles les modèles d’IA de Meta auraient été entraînés pour exceller dans des scénarios de test spécifiques. Cependant, Ahman Al-Dahle, vice-président de l’IA générative de l’entreprise, a réfuté ces affirmations :

« Nous avons également entendu des affirmations selon lesquelles nous nous sommes entraînés sur des ensembles de tests – ce qui est tout simplement faux.»

Au milieu de ces discussions, des utilisateurs se sont demandé pourquoi le modèle d’IA Maverick avait été publié un dimanche. Mark Zuckerberg a simplement répondu : « C’est à ce moment-là qu’il était prêt.» Meta a mis beaucoup de temps à déployer Llama 4, notamment compte tenu de la forte concurrence dans le secteur de l’IA. Suivez l’évolution de la situation pour plus d’informations.

Source et images