Najnowsza platforma Blackwell firmy NVIDIA wyznaczyła nowy standard optymalizacji tokenów na potrzeby wnioskowania AI, co stanowi znaczące osiągnięcie w dziedzinie tokenomiki.
GB200 NVL72 firmy NVIDIA przewyższa Hopper dzięki 10-krotnie ulepszonej tokenomice i wyróżnia się paralelizmem „na poziomie eksperckim”
W dynamicznie rozwijającym się świecie technologii sztucznej inteligencji, NVIDIA nadała priorytet zwiększeniu wydajności swojego sprzętu. Wprowadzenie modeli AI wyszkolonych w technologii Blackwell, przyniosło znaczące postępy w zakresie wydajności tokenów i związanych z tym kosztów. Niedawno NVIDIA podzieliła się spostrzeżeniami na temat współpracy z różnymi firmami, mającej na celu zwiększenie wydajności Blackwell, która w porównaniu z poprzednią generacją Hoppera okazała się dziesięciokrotnie lepsza.
Wiodący dostawcy usług wnioskowania, tacy jak Baseten, DeepInfra, Fireworks AI i Together AI, wykorzystują platformę NVIDIA Blackwell, osiągając nawet dziesięciokrotną redukcję kosztu na token w porównaniu z platformą NVIDIA Hopper. Firmy te udostępniają zaawansowane modele open source, które osiągnęły poziom inteligencji pionierskiej.
Łącząc innowacyjne rozwiązania typu open source z solidnym projektem sprzętowo-programowym NVIDIA Blackwell oraz dostosowanymi stosami wnioskowania, dostawcy ci umożliwiają przedsiębiorstwom z różnych sektorów osiągnięcie znacznych oszczędności kosztów tokenów.
– NVIDIA
NVIDIA doceniła takie organizacje jak Baseten, Sully.ai, DeepInfra i Latitude za ich zaangażowanie w optymalizację tokenomiki z wykorzystaniem platformy Blackwell. Firmy te czerpią korzyści z mniejszych opóźnień, niższych kosztów wnioskowania i niezawodnych wyników, co czyni platformę Blackwell preferowanym pakietem technologicznym dla współczesnych przedsiębiorstw z branży AI. Warto zauważyć, że Sentient Labs odnotowało osiągnięcie „o 25–50% lepszej efektywności kosztowej” w porównaniu z platformą Hopper, szczególnie w przypadku wdrożeń wieloagentowych i wyspecjalizowanych agentów AI.

Sukces architektury Blackwell można przypisać innowacyjnej strategii „ekstremalnego współprojektowania” firmy NVIDIA, która jest szczególnie kompatybilna z nowoczesnymi architekturami Mixture of Experts (MoE).GB200 NVL72 wykorzystuje konfigurację 72-chipową uzupełnioną o 30 TB szybkiej pamięci współdzielonej, co pozwala na osiągnięcie niespotykanego dotąd poziomu paralelizmu eksperckiego. Architektura ta umożliwia ciągłe dzielenie i dystrybucję wsadową na procesory graficzne, co skutkuje nieliniowym wzrostem wolumenu komunikacji, co jest kluczowym czynnikiem dla osiągnięcia optymalnej tokenomiki.
W przyszłości NVIDIA zamierza jeszcze bardziej zwiększyć wydajność infrastruktury w ramach projektu Vera Rubin, koncentrując się na innowacjach architektonicznych i specjalistycznych narzędziach, takich jak CPX, zapewniających funkcjonalność prefill. Biorąc pod uwagę szybki rozwój technologii sztucznej inteligencji, niezwykle ważne jest zrozumienie, że optymalizacja istniejącego sprzętu jest równie istotna, jak tworzenie nowych systemów.
Dodaj komentarz