KI-Richter verbessern Faktencheck-Fähigkeiten und Programmierkenntnisse

Bild über Pixabay

Der Aufstieg der KI bei der Bewertung von Sprachmodellen: Ein neuer Ansatz

Im Bereich der künstlichen Intelligenz nutzen Forscher zunehmend große Sprachmodelle (LLMs), um die Ergebnisse ihrer Kollegen zu analysieren. Diese als „LLM-as-a-judge“ bezeichnete Methodik zielt darauf ab, die Bewertungsmöglichkeiten innerhalb des KI-Ökosystems zu verbessern. Herausforderungen ergeben sich jedoch bei der Bewertung komplexer Aufgaben wie der ausführlichen Faktenprüfung, fortgeschrittener Programmierung und mathematischer Problemlösung.

Innovative Lösungen der University of Cambridge und Apple

Eine aktuelle Forschungsstudie von Wissenschaftlern der Universität Cambridge in Zusammenarbeit mit Apple hat ein bahnbrechendes System vorgestellt, das die Genauigkeit von KI-Bewertungen verbessern soll. Dieses innovative Framework, das im Artikel „Externe Validierung für große Sprachmodelle“ beschrieben wird, umfasst externe Validierungstools, die die Einschränkungen sowohl menschlicher als auch KI-Annotatoren überwinden sollen.

Behebung der Einschränkungen menschlicher und KI-basierter Bewertungen

Sowohl das menschliche Urteilsvermögen als auch die KI-Bewertung stehen vor inhärenten Herausforderungen. Menschliche Kommentatoren kämpfen oft mit Voreingenommenheit, Zeitdruck und Müdigkeit, was ihre Bewertungen eher auf stilistische Vorlieben als auf sachliche Genauigkeit ausrichten kann. Umgekehrt haben KI-Systeme häufig mit den Feinheiten komplexer Aufgaben zu kämpfen, was zu weniger zuverlässigen Bewertungen führt.

Einführung des Evaluation Agent

Der neu entwickelte Evaluation Agent zeichnet sich durch ein vielseitiges Tool aus, das selbstständig die Notwendigkeit der Implementierung externer Validierungstools bei Evaluierungen ermitteln kann. Dieser Agent führt einen dreistufigen Prozess durch: Er führt eine erste Bewertung der Domäne durch, nutzt geeignete Tools und gelangt zu einer abschließenden Schlussfolgerung. Das strategische Design dieses Systems verbessert seine Bewertungskapazität für verschiedene Aufgaben.

So funktionieren die Tools

Zur Verbesserung der Aufgabengenauigkeit wurden spezielle Tools in das Framework des Evaluation Agent integriert:

Tool zur Faktenprüfung: Verwendet Websuchen, um die in den Antworten dargestellten Fakten zu überprüfen.
Codeausführungstool: Verwendet den Codeinterpreter von OpenAI, um Programmierausgaben zu validieren.
Math Checker: Ein spezielles Tool zur Bestätigung mathematischer Gleichungen und Berechnungen.

In Situationen, in denen externe Tools unzureichende Ergebnisse für genaue Bewertungen liefern, wird der LLM-Annotator verwendet. Dieser Ansatz minimiert unnötige Verarbeitungsvorgänge und gewährleistet gleichzeitig die Leistung bei einfachen Aufgaben.

Vielversprechende Ergebnisse und zukünftige Integration

Die Implementierung dieses Frameworks zeigte deutliche Verbesserungen, insbesondere bei der Verifizierung von Fakten im Langformat, und führte zu einer deutlich verbesserten Übereinstimmung mit Ground-Truth-Annotationen. Bei Kodieraufgaben steigerte eine agentenbasierte Strategie die Leistung über mehrere Testgrundlagen hinweg deutlich. Bei mathematischen Herausforderungen wurden zwar Verbesserungen beobachtet, die allgemeine Übereinstimmung mit bestehenden Benchmarks blieb jedoch gering und lag bei etwa 56 %.Interessanterweise ergab die Studie, dass die Genauigkeit des Agenten bei der Auswertung von Langformatantworten die menschlicher Prüfer übertraf.

Das Framework ist erweiterbar und ermöglicht die zukünftige Integration zusätzlicher Validierungstools, um die LLM-Evaluierungsfunktionen weiter zu verfeinern. Im Rahmen seines Engagements für Innovation und Zusammenarbeit plant Apple, den Code für dieses Framework als Open Source auf GitHub zu veröffentlichen, obwohl er noch nicht verfügbar ist.

Quelle & Bilder