Dramat Llama: „Eksperymentalny” model AI Meta zwiększa rankingi, wzbudzając obawy dotyczące uczciwości, przejrzystości i dostępności dla użytkowników

W weekend Meta zaprezentowała dwie innowacyjne wersje swojego Llama 4 AI, wprowadzając kompaktową wersję nazwaną Scout i średniej wielkości alternatywę o nazwie Maverick. Firma chwali się, że Maverick przewyższa ChatGPT-4o i Gemini 2.0 Flash w wielu powszechnie używanych ocenach. Jednak wydaje się, że pod powierzchnią tych twierdzeń kryje się coś więcej.

Meta pod lupą: mylące twierdzenia na temat wydajności modelu AI wywołują kontrowersje

Po uruchomieniu Maverick szybko zapewnił sobie drugą pozycję na LMArena, platformie, na której użytkownicy oceniają i głosują na odpowiedzi AI na podstawie ich trafności i dokładności. Jednak sytuacja nie jest tak prosta, jak się wydaje. Szybki wzrost Mavericka wywołuje dyskusję na temat integralności jego wskaźników wydajności.

Meta z dumą ogłosiła imponujący wynik ELO Mavericka wynoszący 1417, plasując go tuż za Gemini 2.5 Pro i przed GPT-40. Podczas gdy podkreśla to, że Meta opracowała konkurencyjny model AI, to co nastąpiło później wzbudziło zdziwienie w społeczności technologicznej. Obserwatorzy szybko wskazali rozbieżności w twierdzeniach dotyczących wydajności modelu, co doprowadziło do przyznania się Meta: wersja przesłana do oceny do LMArena różniła się od wersji konsumenckiej.

Konkretnie, Meta dostarczyła eksperymentalną odmianę czatu, która została dopracowana pod kątem ulepszonych możliwości konwersacyjnych, jak donosi TechCrunch. W odpowiedzi LMArena podkreśliła, że „interpretacja naszej polityki przez Meta nie odpowiadała temu, czego oczekujemy od dostawców modeli”, wzywając Meta do większej jasności w kwestii korzystania z wersji „Llama-4-Maverick-03-26-Experimental”, która została dostosowana do ludzkich preferencji.

W świetle tego incydentu LMArena zrewidowała swoją politykę dotyczącą tabeli liderów, aby zwiększyć uczciwość i wiarygodność przyszłych rankingów. Następnie rzecznik Meta przedstawił następujący komentarz dotyczący tej sytuacji:

„Wypuściliśmy teraz naszą wersję open source i zobaczymy, jak programiści dostosują Llama 4 do własnych potrzeb”.

Podczas gdy Meta technicznie przestrzegała zasad, brak przejrzystości wzbudził alarmy dotyczące potencjalnej manipulacji rankingami liderów poprzez wykorzystanie zoptymalizowanej i niepublicznej wersji ich modelu. Niezależny badacz AI Simon Willison zauważył:

„Kiedy ukazała się Llama 4 i zajęła drugie miejsce, naprawdę zrobiło to na mnie wrażenie — i kopię się za to, że nie przeczytałem drobnego druku”.

„To generalnie bardzo mylące wydanie… Wynik modelu, który tam otrzymaliśmy, jest dla mnie całkowicie bezwartościowy. Nie mogę nawet użyć modelu, który uzyskał wysoki wynik”.

W innym tonie, pojawiły się spekulacje sugerujące, że modele AI Meta zostały wytrenowane, aby osiągać doskonałe wyniki w określonych scenariuszach testowych. Jednak wiceprezes ds. Generative AI firmy, Ahman Al-Dahle, obalił te twierdzenia, stwierdzając:

„Słyszeliśmy też twierdzenia, że trenowaliśmy na zestawach testowych — to po prostu nieprawda”.

W trakcie tych dyskusji użytkownicy pytali, dlaczego model Maverick AI został wydany w niedzielę. Mark Zuckerberg odpowiedział po prostu: „Wtedy był gotowy”.Meta potrzebowała sporo czasu, aby w końcu wypuścić Llama 4, zwłaszcza biorąc pod uwagę silną konkurencję w sektorze AI. W miarę rozwoju wydarzeń bądźcie czujni, aby otrzymywać dalsze aktualizacje.

Źródło i obrazy