Microsoft presenta los modelos de lenguaje pequeños Phi-4 Multimodal y Phi-4 Mini

Microsoft presenta la familia Phi-4: un gran avance en la tecnología de modelos de lenguaje

En diciembre de 2024, Microsoft lanzó Phi-4, un modelo de lenguaje pequeño (SLM) de vanguardia que establece un nuevo punto de referencia en su categoría. Basándose en este éxito, la empresa ha presentado ahora dos modelos adicionales: Phi-4-multimodal y Phi-4-mini, que amplían las capacidades de la familia Phi-4.

Diversas funcionalidades de los modelos Phi-4

El modelo multimodal Phi-4 es particularmente notable, ya que integra perfectamente el procesamiento de voz, visión y texto dentro de un único marco unificado. Con una escala impresionante de 5.6 mil millones de parámetros, se destaca como el modelo de lenguaje multimodal inaugural de Microsoft. Este modelo no solo mejora la flexibilidad, sino que también supera significativamente a los principales competidores, como Gemini 2.0 Flash y Gemini 2.0 Flash Lite de Google, en varias pruebas comparativas.

Excelencia en reconocimiento de voz

En el ámbito del reconocimiento de voz, Phi-4-multimodal supera a modelos especializados como WhisperV3 y SeamlessM4T-v2-Large. Ha logrado el primer puesto en la clasificación Hugging Face OpenASR, con una notable tasa de error de palabras de tan solo el 6, 14 %.Esto lo establece como una solución líder para tareas de reconocimiento automático de voz (ASR) y traducción de voz (ST).

Alto desempeño en tareas de visión

Además, el modelo muestra un sólido desempeño en tareas centradas en la visión, en particular en áreas como el razonamiento matemático y el análisis científico. Sus capacidades de comprensión de documentos, gráficos visuales, reconocimiento óptico de caracteres (OCR) y razonamiento visual igualan o superan las de modelos establecidos como Gemini-2-Flash-lite-preview y Claude-3.5-Sonnet.

Phi-4-mini: Capacidades de texto específicas

Por otra parte, Phi-4-mini, con sus 3.800 millones de parámetros, demuestra un rendimiento superior en tareas basadas en texto. Maneja eficazmente el razonamiento, las matemáticas, los desafíos de codificación, el seguimiento de instrucciones y la invocación de funciones, superando a menudo a modelos más grandes.

Ventajas de seguridad y despliegue

Para abordar las preocupaciones de seguridad, Microsoft ha garantizado pruebas rigurosas de estos modelos con información de expertos en seguridad internos y externos, guiados por estrategias del Equipo Rojo de Inteligencia Artificial de Microsoft (AIRT).Tanto Phi-4-multimodal como Phi-4-mini están diseñados para la implementación en el dispositivo y se han optimizado aún más con ONNX Runtime para mejorar la compatibilidad entre plataformas. Esta característica los hace ideales para aplicaciones rentables y de baja latencia.

Disponibilidad para desarrolladores

Los desarrolladores ahora pueden acceder a los modelos Phi-4-multimodal y Phi-4-mini a través de plataformas como Azure AI Foundry, Hugging Face y NVIDIA API Catalog. Estas innovaciones representan un avance significativo en inteligencia artificial eficiente, lo que permite a los desarrolladores aprovechar las potentes funcionalidades multimodales y basadas en texto en diversas aplicaciones de IA.

Fuente e imágenes

Microsoft presenta los modelos de lenguaje pequeños Phi-4 Multimodal y Phi-4 Mini

Microsoft presenta la familia Phi-4: un gran avance en la tecnología de modelos de lenguaje

Diversas funcionalidades de los modelos Phi-4

Excelencia en reconocimiento de voz

Alto desempeño en tareas de visión

Phi-4-mini: Capacidades de texto específicas

Ventajas de seguridad y despliegue

Disponibilidad para desarrolladores

Artículos relacionados:

Temporada 2 de Frieren: 6 nuevos personajes que hacen su debut

Se confirma que un director de renombre volverá a la segunda temporada de Frieren

Deja una respuesta Cancelar la respuesta▼