A IA mais recente do Alibaba supera GPT-3.5, Claude em vários testes de benchmark

Este não é um conselho de investimento. O autor não possui posição em nenhuma das ações mencionadas.

Com 2024 marcando um forte início para a corrida global da inteligência artificial, o gigante chinês da tecnologia Alibaba Group também anunciou a mais recente iteração do seu modelo de inteligência artificial Qwen. Além do ChatGPT da OpenAI, que é o chatbot de IA mais conhecido do mundo, outros modelos como o Llama da Meta e o Claude da Anthropic, parceira da Amazon, são várias opções que consumidores e empresas têm ao escolher uma plataforma de IA para suas necessidades.

A última iteração Qwen do Alibaba é o Qwen 1.5 e, de acordo com benchmarks compartilhados na plataforma de mídia social X, o modelo supera ChatGPT e Claude em algumas pontuações de benchmark.

Qwen 1.5 do Alibaba supera Claude e ChatGPT em vários benchmarks testando fluidez instrucional

Assim como os sistemas operacionais executados em computadores ou smartphones, um modelo de inteligência artificial também é um software. Isso permite que engenheiros e analistas de software avaliem seu desempenho e, quando se trata do mais recente Qwen 1.5 do Alibaba, algumas pontuações mostram que ele supera o Claude da Anthropic e o ChatGPT da OpenAI.

Os benchmarks que testam sistemas operacionais avaliam sua capacidade de processar instruções e executar aplicativos, e aqueles para modelos de inteligência artificial normalmente giram em torno deles, testando a capacidade dos modelos de gerar resultados.

Dois desses benchmarks são MT-bench e Alapaca-Eval, e as pontuações compartilhadas no X mostram que uma variante do Qwen 1.5 do Alibaba ultrapassou ChatGPT e Claude neles. O MT-bench testa a capacidade de um modelo de responder a um conjunto de perguntas pré-definidas que não apenas buscam diferenciá-lo do chatbot, mas também tentam determinar se o modelo consegue “manter sua posição” em um ambiente de conversação difícil que envolve duas partes interagindo rapidamente um com o outro.

As pontuações de benchmark mostram que Qwen foi o quarto maior pontuador no banco MT, e ficou apenas atrás do GPT-4 Turbo e dos dois primeiros lançamentos do GPT-4, ou seja, as versões 0613 e 0314.

Alibaba lança Qwen 1.5

demonstração: https://t.co/goMcWMsIzT

maior Qwen1.5-72B-Chat de código aberto, exibe desempenho superior, superando Claude-2.1, GPT-3.5-Turbo-0613, tanto no MT-Bench quanto no Alpaca-Eval v2 pic.twitter.com/50dNuUpEBx

-AK (@_akhaliq) 5 de fevereiro de 2024

Alapaca-Eval é um benchmark que usa um modelo de referência para emular interações humanas e determinar até que ponto um modelo de IA testado fornece resultados alinhados com a linha de base. Ele também fornece aos usuários uma tabela de classificação para monitorar seus testes, e os benchmarks de hoje mostram que o desempenho do Alapaca-Eval do Qwen 1.5 está apenas atrás do GPT-4 Turbo e do Yi-34B do HuggingFace baseado em Nova York.

Qwen1.5 é um dos maiores modelos de código aberto desse tipo e é apoiado pelos enormes recursos de computação do Alibaba. Uma IA de código aberto, assim como o software de código aberto, disponibiliza seu código para usuários e desenvolvedores para que eles possam entender o modelo e criar suas próprias variantes. O Llama do Meta, também presente nas partituras de hoje, também é um modelo de código aberto.

O início de 2024 viu o foco renomado de Wall Street e empresas nos relatórios de ganhos de IA de gigantes da tecnologia de mega capitalização, como Meta, Microsoft e Alphabet, todos focados em AI O chefe da Meta, Mark Zuckerberg, pretende comprar centenas de milhares de GPUs este ano para alimentar up Llama, e na teleconferência de resultados da empresa, o executivo explicou que sua decisão de aumentar a capacidade de computação na Meta segue descuidos anteriores que levaram a empresa a ficar abaixo da capacidade.

Da mesma forma, os ganhos dos fabricantes e designers de chips TSMC e AMD também viram suas administrações expressarem otimismo para o futuro da IA. A administração da TSMC está confiante de que a empresa tem uma base estável para capturar qualquer demanda de IA, enquanto a AMD acredita que a IA pode acabar valendo centenas de bilhões de dólares até o final da década.