Microsoft apresenta os modelos de linguagem Phi-4 Multimodal e Phi-4 Mini Small

Microsoft apresenta os modelos de linguagem Phi-4 Multimodal e Phi-4 Mini Small

Microsoft revela a família Phi-4: um salto na tecnologia de modelos de linguagem

Em dezembro de 2024, a Microsoft lançou o Phi-4, um modelo de linguagem pequena (SLM) de ponta que define um novo padrão em sua categoria. Com base nesse sucesso, a empresa agora introduziu dois modelos adicionais: Phi-4-multimodal e Phi-4-mini, expandindo os recursos da família Phi-4.

Funcionalidade diversa dos modelos Phi-4

O modelo Phi-4-multimodal é particularmente notável, pois integra perfeitamente o processamento de fala, visão e texto em uma única estrutura unificada. Com uma escala impressionante de 5, 6 bilhões de parâmetros, ele se destaca como o modelo de linguagem multimodal inaugural da Microsoft. Este modelo não apenas aumenta a flexibilidade, mas também supera significativamente os principais concorrentes, como o Gemini 2.0 Flash e o Gemini 2.0 Flash Lite do Google em vários benchmarks.

Microsoft

Excelência em reconhecimento de fala

No reino do reconhecimento de fala, o Phi-4-multimodal se destaca além de modelos especializados como WhisperV3 e SeamlessM4T-v2-Large. Ele conquistou o primeiro lugar no ranking Hugging Face OpenASR, alcançando uma taxa de erro de palavra notável de apenas 6, 14%.Isso o estabelece como uma solução líder para tarefas de reconhecimento automático de fala (ASR) e tradução de fala (ST).

Microsoft

Forte desempenho em tarefas de visão

Além disso, o modelo exibe desempenho robusto em tarefas centradas na visão, particularmente em áreas como raciocínio matemático e análise científica. Suas capacidades em entender documentos, gráficos visuais, reconhecimento óptico de caracteres (OCR) e raciocínio visual correspondem ou superam aquelas de modelos estabelecidos como Gemini-2-Flash-lite-preview e Claude-3.5-Sonnet.

Phi-4-mini: Capacidades de texto direcionadas

Por outro lado, o Phi-4-mini, com seus 3, 8 bilhões de parâmetros, demonstra desempenho superior em tarefas baseadas em texto. Ele lida efetivamente com raciocínio, matemática, desafios de codificação, acompanhamento de instruções e chamada de função, frequentemente superando modelos maiores.

Vantagens de segurança e implantação

Para abordar preocupações de segurança e proteção, a Microsoft garantiu testes rigorosos desses modelos com insights de especialistas em segurança internos e externos, guiados por estratégias da Microsoft AI Red Team (AIRT).Tanto o Phi-4-multimodal quanto o Phi-4-mini são projetados para implantação no dispositivo, otimizados ainda mais usando o ONNX Runtime para aprimorar a compatibilidade entre plataformas. Esse recurso os torna ideais para aplicativos econômicos e de baixa latência.

Disponibilidade para desenvolvedores

Os desenvolvedores agora podem acessar os modelos Phi-4-multimodal e Phi-4-mini por meio de plataformas como Azure AI Foundry, Hugging Face e o NVIDIA API Catalog. Essas inovações representam um salto significativo em inteligência artificial eficiente, capacitando os desenvolvedores a aproveitar poderosas funcionalidades multimodais e baseadas em texto em vários aplicativos de IA.

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *