Juízes de IA aprimoram habilidades de verificação de fatos e habilidades de codificação

Imagem via Pixabay

A ascensão da IA na avaliação de modelos de linguagem: uma nova abordagem

No âmbito da inteligência artificial, pesquisadores estão adotando cada vez mais modelos de grande linguagem (LLMs) para analisar os resultados gerados por seus colegas. Essa metodologia, denominada “LLM como juiz”, visa aprimorar as capacidades de avaliação dentro do ecossistema de IA. No entanto, surgem desafios durante a avaliação de tarefas complexas, como verificação de fatos de formato longo, programação avançada e resolução de problemas matemáticos.

Soluções inovadoras da Universidade de Cambridge e da Apple

Um estudo recente conduzido por especialistas acadêmicos da Universidade de Cambridge em colaboração com a Apple apresentou um sistema inovador projetado para aprimorar a precisão das avaliações de IA. Essa estrutura inovadora, detalhada no artigo intitulado “Validação Externa para Grandes Modelos de Linguagem”, incorpora ferramentas de validação externa destinadas a abordar as limitações dos anotadores humanos e de IA.

Abordando as limitações das avaliações humanas e de IA

Tanto o julgamento humano quanto a avaliação de IA enfrentam desafios inerentes. Anotadores humanos frequentemente enfrentam vieses, restrições de tempo e fadiga, o que pode distorcer suas avaliações em direção a preferências estilísticas em vez da precisão factual. Por outro lado, sistemas de IA frequentemente enfrentam dificuldades com as complexidades de tarefas complexas, resultando em avaliações menos confiáveis.

Apresentando o Agente de Avaliação

O recém-desenvolvido Agente de Avaliação destaca-se como uma ferramenta multifacetada que pode determinar de forma autônoma a necessidade de implementar ferramentas de validação externas durante as avaliações. Este agente percorre um processo de três etapas: conduz uma avaliação inicial do domínio, utiliza ferramentas apropriadas e chega a uma conclusão final. O design estratégico deste sistema aprimora sua capacidade avaliativa em diversas tarefas.

Como funcionam as ferramentas

Ferramentas específicas foram integradas à estrutura do Agente de Avaliação para melhorar a precisão das tarefas:

Ferramenta de verificação de fatos: utiliza pesquisas na web para verificar os fatos apresentados nas respostas.
Ferramenta de execução de código: utiliza o interpretador de código do OpenAI para validar saídas de programação.
Math Checker: Uma ferramenta especializada dedicada a confirmar equações e cálculos matemáticos.

Em situações em que ferramentas externas produzem resultados insuficientes para avaliações precisas, o anotador LLM de linha de base é utilizado. Essa abordagem minimiza o processamento desnecessário, mantendo o desempenho em tarefas simples.

Resultados promissores e integração futura

A implementação desta estrutura demonstrou melhorias significativas, particularmente na verificação de fatos em formato longo, levando a um aumento notável no alinhamento com anotações de verdade básica. Em tarefas de codificação, uma estratégia baseada em agentes impulsionou significativamente o desempenho em múltiplas linhas de base de teste. Para desafios matemáticos, embora melhorias tenham sido observadas, a concordância geral com os benchmarks existentes permaneceu baixa, particularmente em torno de 56%.Curiosamente, o estudo revelou que, ao avaliar respostas em formato longo, a precisão do agente superou a de avaliadores humanos.

Olhando para o futuro, a estrutura foi projetada com extensibilidade em mente, permitindo a integração futura de ferramentas de validação adicionais para refinar ainda mais os recursos de avaliação do LLM. Como parte de seu compromisso com a inovação e a colaboração, a Apple planeja lançar o código desta estrutura como código aberto no GitHub, embora ainda não esteja disponível.

Fonte e Imagens