A IA mais recente do Alibaba supera GPT-3.5, Claude em vários testes de benchmark

A IA mais recente do Alibaba supera GPT-3.5, Claude em vários testes de benchmark

Este não é um conselho de investimento. O autor não possui posição em nenhuma das ações mencionadas.

Com 2024 marcando um forte início para a corrida global da inteligência artificial, o gigante chinês da tecnologia Alibaba Group também anunciou a mais recente iteração do seu modelo de inteligência artificial Qwen. Além do ChatGPT da OpenAI, que é o chatbot de IA mais conhecido do mundo, outros modelos como o Llama da Meta e o Claude da Anthropic, parceira da Amazon, são várias opções que consumidores e empresas têm ao escolher uma plataforma de IA para suas necessidades.

A última iteração Qwen do Alibaba é o Qwen 1.5 e, de acordo com benchmarks compartilhados na plataforma de mídia social X, o modelo supera ChatGPT e Claude em algumas pontuações de benchmark.

Qwen 1.5 do Alibaba supera Claude e ChatGPT em vários benchmarks testando fluidez instrucional

Assim como os sistemas operacionais executados em computadores ou smartphones, um modelo de inteligência artificial também é um software. Isso permite que engenheiros e analistas de software avaliem seu desempenho e, quando se trata do mais recente Qwen 1.5 do Alibaba, algumas pontuações mostram que ele supera o Claude da Anthropic e o ChatGPT da OpenAI.

Os benchmarks que testam sistemas operacionais avaliam sua capacidade de processar instruções e executar aplicativos, e aqueles para modelos de inteligência artificial normalmente giram em torno deles, testando a capacidade dos modelos de gerar resultados.

Dois desses benchmarks são MT-bench e Alapaca-Eval, e as pontuações compartilhadas no X mostram que uma variante do Qwen 1.5 do Alibaba ultrapassou ChatGPT e Claude neles. O MT-bench testa a capacidade de um modelo de responder a um conjunto de perguntas pré-definidas que não apenas buscam diferenciá-lo do chatbot, mas também tentam determinar se o modelo consegue “manter sua posição” em um ambiente de conversação difícil que envolve duas partes interagindo rapidamente um com o outro.

As pontuações de benchmark mostram que Qwen foi o quarto maior pontuador no banco MT, e ficou apenas atrás do GPT-4 Turbo e dos dois primeiros lançamentos do GPT-4, ou seja, as versões 0613 e 0314.

Alapaca-Eval é um benchmark que usa um modelo de referência para emular interações humanas e determinar até que ponto um modelo de IA testado fornece resultados alinhados com a linha de base. Ele também fornece aos usuários uma tabela de classificação para monitorar seus testes, e os benchmarks de hoje mostram que o desempenho do Alapaca-Eval do Qwen 1.5 está apenas atrás do GPT-4 Turbo e do Yi-34B do HuggingFace baseado em Nova York.

Qwen1.5 é um dos maiores modelos de código aberto desse tipo e é apoiado pelos enormes recursos de computação do Alibaba. Uma IA de código aberto, assim como o software de código aberto, disponibiliza seu código para usuários e desenvolvedores para que eles possam entender o modelo e criar suas próprias variantes. O Llama do Meta, também presente nas partituras de hoje, também é um modelo de código aberto.

O início de 2024 viu o foco renomado de Wall Street e empresas nos relatórios de ganhos de IA de gigantes da tecnologia de mega capitalização, como Meta, Microsoft e Alphabet, todos focados em AI O chefe da Meta, Mark Zuckerberg, pretende comprar centenas de milhares de GPUs este ano para alimentar up Llama, e na teleconferência de resultados da empresa, o executivo explicou que sua decisão de aumentar a capacidade de computação na Meta segue descuidos anteriores que levaram a empresa a ficar abaixo da capacidade.

Da mesma forma, os ganhos dos fabricantes e designers de chips TSMC e AMD também viram suas administrações expressarem otimismo para o futuro da IA. A administração da TSMC está confiante de que a empresa tem uma base estável para capturar qualquer demanda de IA, enquanto a AMD acredita que a IA pode acabar valendo centenas de bilhões de dólares até o final da década.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *