Microsoft, Phi-4 멀티모달 및 Phi-4 미니 소규모 언어 모델 소개

Microsoft, Phi-4 멀티모달 및 Phi-4 미니 소규모 언어 모델 소개

Microsoft, Phi-4 제품군 공개: 언어 모델 기술의 도약

2024년 12월, Microsoft는 해당 범주에서 새로운 벤치마크를 설정한 최첨단 소규모 언어 모델(SLM)인 Phi-4를 출시했습니다.이러한 성공을 바탕으로 회사는 이제 Phi-4-multimodal과 Phi-4-mini라는 두 가지 추가 모델을 출시하여 Phi-4 제품군의 기능을 확장했습니다.

Phi-4 모델의 다양한 기능

Phi-4-멀티모달 모델은 특히 주목할 만한데, 음성, 비전, 텍스트 처리를 단일 통합 프레임워크 내에서 원활하게 통합하기 때문입니다.56억 개의 매개변수라는 인상적인 규모로 Microsoft의 최초 멀티모달 언어 모델로 돋보입니다.이 모델은 유연성을 향상시킬 뿐만 아니라 다양한 벤치마크에서 Google의 Gemini 2.0 Flash 및 Gemini 2.0 Flash Lite와 같은 주요 경쟁사보다 상당히 우수한 성능을 발휘합니다.

마이크로소프트

음성 인식 우수성

음성 인식 분야에서 Phi-4-multimodal은 WhisperV3 및 SeamlessM4T-v2-Large와 같은 특수 모델을 능가합니다. Hugging Face OpenASR 리더보드에서 1위를 차지했으며, 단 6.14%라는 놀라운 단어 오류율을 달성했습니다.이를 통해 자동 음성 인식(ASR) 및 음성 번역(ST) 작업을 위한 선도적인 솔루션으로 자리매김했습니다.

마이크로소프트

비전 작업에서 강력한 성과

또한 이 모델은 특히 수학적 추론 및 과학적 분석과 같은 분야에서 시각 중심 작업에서 강력한 성능을 보여줍니다.문서, 시각적 차트, 광학 문자 인식(OCR) 및 시각적 추론을 이해하는 기능은 Gemini-2-Flash-lite-preview 및 Claude-3.5-Sonnet과 같은 기존 모델의 기능과 동일하거나 더 뛰어납니다.

Phi-4-mini: 타겟 텍스트 기능

반면, 38억 개의 매개변수를 가진 Phi-4-mini는 텍스트 기반 작업에서 뛰어난 성능을 보여줍니다.추론, 수학, 코딩 과제, 명령어 따르기, 함수 호출을 효과적으로 처리하며, 종종 더 큰 모델보다 성능이 뛰어납니다.

보안 및 배포 이점

안전 및 보안 문제를 해결하기 위해 Microsoft는 Microsoft AI Red Team(AIRT)의 전략에 따라 내부 및 외부 보안 전문가의 통찰력을 바탕으로 이러한 모델을 엄격하게 테스트했습니다. Phi-4-multimodal과 Phi-4-mini는 모두 기기 내 배포를 위해 설계되었으며, ONNX Runtime을 사용하여 더욱 최적화되어 크로스 플랫폼 호환성을 향상시킵니다.이 기능은 비용 효율적이고 대기 시간이 짧은 애플리케이션에 이상적입니다.

개발자를 위한 가용성

개발자는 이제 Azure AI Foundry, Hugging Face, NVIDIA API Catalog와 같은 플랫폼을 통해 Phi-4-multimodal 및 Phi-4-mini 모델에 액세스할 수 있습니다.이러한 혁신은 효율적인 인공 지능에서 큰 도약을 나타내며, 개발자가 다양한 AI 애플리케이션에서 강력한 멀티모달 및 텍스트 기반 기능을 활용할 수 있도록 지원합니다.

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다