Microsoft wprowadza modele językowe Phi-4 Multimodal i Phi-4 Mini Small

Microsoft prezentuje rodzinę Phi-4: skok w technologii modeli językowych

W grudniu 2024 r. Microsoft wprowadził na rynek Phi-4, najnowocześniejszy model małego języka (SLM), który wyznacza nowy punkt odniesienia w swojej kategorii. Opierając się na tym sukcesie, firma wprowadziła teraz dwa dodatkowe modele: Phi-4-multimodal i Phi-4-mini, rozszerzając możliwości rodziny Phi-4.

Różnorodna funkcjonalność modeli Phi-4

Model Phi-4-multimodalny jest szczególnie godny uwagi, ponieważ płynnie integruje przetwarzanie mowy, obrazu i tekstu w ramach jednego ujednoliconego frameworka. Dzięki imponującej skali 5, 6 miliarda parametrów wyróżnia się jako pierwszy multimodalny model językowy Microsoftu. Model ten nie tylko zwiększa elastyczność, ale także znacznie przewyższa czołowych konkurentów, takich jak Gemini 2.0 Flash i Gemini 2.0 Flash Lite firmy Google w różnych testach porównawczych.

Doskonałość w rozpoznawaniu mowy

W dziedzinie rozpoznawania mowy Phi-4-multimodal przewyższa specjalistyczne modele, takie jak WhisperV3 i SeamlessM4T-v2-Large. Zajął pierwsze miejsce w tabeli liderów Hugging Face OpenASR, osiągając niezwykły wskaźnik błędów słów wynoszący zaledwie 6, 14%.Ustanawia to je jako wiodące rozwiązanie do zadań automatycznego rozpoznawania mowy (ASR) i tłumaczenia mowy (ST).

Wysoka wydajność w zadaniach wymagających widzenia

Ponadto model ten wykazuje solidną wydajność w zadaniach skoncentrowanych na wizji, szczególnie w takich obszarach jak rozumowanie matematyczne i analiza naukowa. Jego możliwości w zakresie rozumienia dokumentów, wykresów wizualnych, optycznego rozpoznawania znaków (OCR) i rozumowania wizualnego dorównują lub przewyższają te znane modele, takie jak Gemini-2-Flash-lite-preview i Claude-3.5-Sonnet.

Phi-4-mini: Możliwości ukierunkowanego tekstu

Z drugiej strony Phi-4-mini, z 3, 8 miliarda parametrów, wykazuje lepszą wydajność w zadaniach opartych na tekście. Skutecznie radzi sobie z rozumowaniem, matematyką, wyzwaniami kodowania, podążaniem za instrukcjami i wywoływaniem funkcji, często przewyższając większe modele.

Zalety w zakresie bezpieczeństwa i wdrażania

Aby rozwiązać problemy związane z bezpieczeństwem, Microsoft zapewnił rygorystyczne testowanie tych modeli z uwzględnieniem spostrzeżeń zarówno wewnętrznych, jak i zewnętrznych ekspertów ds.bezpieczeństwa, kierując się strategiami Microsoft AI Red Team (AIRT).Zarówno Phi-4-multimodal, jak i Phi-4-mini są przeznaczone do wdrażania na urządzeniu, dodatkowo zoptymalizowane przy użyciu ONNX Runtime w celu zwiększenia kompatybilności międzyplatformowej. Ta funkcja sprawia, że są idealne do opłacalnych i nisko-opóźnieniowych aplikacji.

Dostępność dla programistów

Programiści mogą teraz uzyskać dostęp do modeli Phi-4-multimodal i Phi-4-mini za pośrednictwem platform takich jak Azure AI Foundry, Hugging Face i NVIDIA API Catalog. Te innowacje stanowią znaczący krok naprzód w wydajnej sztucznej inteligencji, umożliwiając programistom wykorzystanie potężnych multimodalnych i tekstowych funkcjonalności w różnych aplikacjach AI.

Źródło i obrazy

Microsoft wprowadza modele językowe Phi-4 Multimodal i Phi-4 Mini Small

Microsoft prezentuje rodzinę Phi-4: skok w technologii modeli językowych

Różnorodna funkcjonalność modeli Phi-4

Doskonałość w rozpoznawaniu mowy

Wysoka wydajność w zadaniach wymagających widzenia

Phi-4-mini: Możliwości ukierunkowanego tekstu

Zalety w zakresie bezpieczeństwa i wdrażania

Dostępność dla programistów

Powiązane artykuły:

Disney Dreamlight Valley ujawnia najważniejsze informacje o Agrabah

Argumenty za Super Smash Bros. Ultimate Definitive Edition jako idealnym tytułem startowym dla Switch 2

Dodaj komentarz Anuluj pisanie odpowiedzi