Drama de llamas: el modelo de IA «experimental» de Meta mejora su posicionamiento, lo que genera inquietudes sobre la imparcialidad, la transparencia y la accesibilidad del usuario.

Durante el fin de semana, Meta presentó dos versiones innovadoras de su Llama 4 AI: una versión compacta llamada Scout y una alternativa de tamaño mediano llamada Maverick. La empresa presume de que Maverick supera a ChatGPT-4o y Gemini 2.0 Flash en múltiples evaluaciones de uso común. Sin embargo, parece haber algo más tras estas afirmaciones.

Meta bajo escrutinio: Afirmaciones engañosas sobre el rendimiento de los modelos de IA generan controversia

Tras su lanzamiento, Maverick se aseguró rápidamente el segundo puesto en LMArena, una plataforma donde los usuarios evalúan y votan las respuestas de la IA según su relevancia y precisión. Sin embargo, la situación no es tan sencilla como parece. El rápido ascenso de Maverick ha suscitado un debate sobre la integridad de sus métricas de rendimiento.

Meta anunció con orgullo la impresionante puntuación ELO de 1417 de Maverick, lo que lo posiciona justo detrás de Gemini 2.5 Pro y por delante de GPT-40. Si bien esto demuestra que Meta ha diseñado un modelo de IA competitivo, lo que vino después causó controversia en la comunidad tecnológica. Los analistas rápidamente señalaron discrepancias en las afirmaciones de rendimiento del modelo, lo que llevó a Meta a admitir que la versión presentada para evaluación en LMArena difería de la versión para el consumidor.

En concreto, Meta proporcionó una variante de chat experimental optimizada para mejorar las capacidades conversacionales, según informó TechCrunch. En respuesta, LMArena enfatizó que «la interpretación de Meta de nuestra política no coincidía con lo que esperábamos de los proveedores de modelos», y exigió mayor claridad a Meta respecto al uso de la versión «Llama-4-Maverick-03-26-Experimental», adaptada a las preferencias humanas.

Ante este incidente, LMArena ha revisado sus políticas de clasificación para mejorar la imparcialidad y fiabilidad de las futuras clasificaciones. Posteriormente, un portavoz de Meta comentó lo siguiente sobre la situación:

“Ya hemos lanzado nuestra versión de código abierto y veremos cómo los desarrolladores personalizan Llama 4 para sus propios casos de uso”.

Si bien Meta técnicamente cumplía con las normas, la falta de transparencia alertó sobre la posible manipulación de las clasificaciones mediante una versión optimizada y no pública de su modelo. El investigador independiente de IA, Simon Willison, comentó:

“Cuando salió Llama 4 y llegó al número 2, me impresionó mucho, y me arrepiento de no haber leído la letra pequeña”.

En general, es un lanzamiento muy confuso…La puntuación del modelo que obtuvimos no me sirve para nada. Ni siquiera puedo usar el modelo que obtuvo la puntuación alta.

Por otra parte, se ha especulado que los modelos de IA de Meta fueron entrenados para sobresalir en escenarios de prueba específicos. Sin embargo, el vicepresidente de IA Generativa de la compañía, Ahman Al-Dahle, refutó estas afirmaciones, afirmando:

“También hemos escuchado afirmaciones de que entrenamos en sets de prueba, pero eso simplemente no es cierto”.

En medio de estas discusiones, los usuarios cuestionaron por qué el modelo de IA de Maverick se lanzó un domingo. Mark Zuckerberg respondió simplemente: «Fue entonces cuando estuvo listo».Meta tardó bastante en lanzar finalmente Llama 4, especialmente dada la fuerte competencia en el sector de la IA. Manténganse al tanto de las novedades a medida que se desarrollan los desarrollos.

Fuente e imágenes