Pojedynek układów AI: NVIDIA mierzy się z poważną konkurencją ze strony układów TPU firmy Google, nie tylko AMD czy Intel

Pojedynek układów AI: NVIDIA mierzy się z poważną konkurencją ze strony układów TPU firmy Google, nie tylko AMD czy Intel

W dynamicznie rozwijającym się sektorze sztucznej inteligencji NVIDIA stoi przed bezprecedensowymi wyzwaniami, nie ze strony AMD czy Intela, ale Google – wschodzącego konkurenta, który znacząco nadrabia straty. Prezes NVIDIA, Jensen Huang, doskonale zdaje sobie sprawę z tej konkurencyjnej sytuacji.

Na pierwszy rzut oka może wydawać się zaskakujące, że Google jest liderem w wyścigu o sprzęt AI, ale gigant technologiczny położył podwaliny pod ten krok, wprowadzając na rynek swój pierwszy niestandardowy układ AI, TPU (Tensor Processing Unit), już w 2016 roku, znacznie wyprzedzając konkurencję. Niedawno Google zaprezentowało swoje najnowsze osiągnięcie – procesory TPU Ironwood „siódmej generacji”, które wzbudziły spore emocje i stworzyły kontekst do rywalizacji między firmami NVIDIA i Google. W tym artykule zagłębiamy się w kluczowe aspekty, które ilustrują, dlaczego to starcie jest tak kluczowe, ze szczególnym uwzględnieniem udoskonaleń wprowadzonych przez procesory TPU Ironwood firmy Google.

Procesory TPU Ironwood firmy Google: pamięć HBM o pojemności 192 GB i znaczne udoskonalenia wydajności

Procesory TPU Ironwood firmy Google są przygotowywane do wdrożenia w różnych obciążeniach i powinny być dostępne wkrótce. Reklamowany jako układ „skoncentrowany na wnioskowaniu”, Google twierdzi, że Ironwood zwiastuje nową erę w wydajności wnioskowania, poprawiając efektywność obliczeń ogólnego przeznaczenia. Procesor TPU v7 (Ironwood) został strategicznie zaprojektowany z myślą o doskonałym przejściu od trenowania modeli do wnioskowania, co ma szansę zdominować obecny krajobraz technologiczny. Oto kilka godnych uwagi specyfikacji:

  • 10-krotnie większa wydajność szczytowa w porównaniu do TPU v5p.
  • 4-krotnie lepsza wydajność na układ, zarówno pod względem uczenia, jak i wnioskowania, w porównaniu do TPU v6e (Trillium).
  • Najbardziej wydajny i energooszczędny niestandardowy układ krzemowy opracowany dotychczas przez Google.

Dokładniej rzecz ujmując, układ Ironwood oferuje imponujące 192 GB pamięci HBM o przepustowości 7, 4 TB/s i może osiągnąć oszałamiającą wydajność szczytową 4614 TFLOPS na układ – prawie 16-krotnie wyższą niż TPU v4. Dodatkowo, dzięki wprowadzeniu układu Ironwood TPU Superpod, składającego się z 9216 układów, Google jest w stanie zapewnić imponującą wydajność 42, 5 eksaFLOPS dla łącznych obciążeń obliczeniowych FP8. Ta integracja podkreśla innowacyjne rozwiązania Google w zakresie połączeń międzysystemowych, które pod względem skalowalności przewyższają technologię NVLink firmy NVIDIA.

Duże pomieszczenie wypełnione rzędami szaf serwerowych połączonych ze sobą licznymi kolorowymi kablami.
SuperPod Ironwood firmy Google

Koncentrując się na łączności, Google wykorzystuje InterChip Interconnect (ICI), solidną sieć zaprojektowaną z myślą o skalowalności. Technologia ta umożliwia połączenie 43 bloków (każdy z 64 chipami) Superpodów w sieci o przepustowości 1, 8 petabajta. Wykorzystując karty sieciowe do komunikacji wewnętrznej i układ 3D Torus dla układów TPU, Google optymalizuje łączność, skutecznie zwiększając skalowalność i gęstość chipów – w tym obszarze przewyższa ofertę firmy NVIDIA.

Specyfikacja Wartość
Maksymalna moc obliczeniowa na układ (FP8) ~ 4614 teraflopów
Pojemność HBM na chip 192 GB HBM3e
Przepustowość pamięci na chip ~ 7, 2 TB/s
Maksymalny rozmiar strąka (liczba żetonów) 9216 żetonów
Maksymalna moc obliczeniowa na pod ~ 42, 5 eksaflopsów
Pamięć systemowa na jednostkę (HBM) ~ 1, 77 PB
Szerokość pasma połączeń między układami scalonymi (ICI) ~ 1, 2 Tb/s na łącze
Poprawa wydajności ~ 16x przez TPU v4

Aspiracje Google dotyczące układów ASIC: czy to realne zagrożenie dla dominacji firmy NVIDIA w dziedzinie sztucznej inteligencji?

Analizując znaczenie procesorów TPU Ironwood w obecnej erze wnioskowania, kluczowe jest dostrzeżenie rosnącego znaczenia możliwości wnioskowania. Tradycyjnie w obszarze sztucznej inteligencji dominowało trenowanie modeli, a rozwiązania obliczeniowe firmy NVIDIA są szeroko stosowane ze względu na ich wyższą wydajność w scenariuszach szkoleniowych. Jednak wraz z upowszechnianiem się modeli popularnych, liczba zadań wnioskowania gwałtownie wzrosła, często przewyższając zapotrzebowanie na szkolenia.

Wydajność wnioskowania zależy nie tylko od samych TFLOPS-ów; czynniki takie jak opóźnienie, przepustowość, efektywność i koszt zapytania stają się coraz ważniejsze. Analizując ofertę Ironwood firmy Google, staje się jasne, dlaczego może ona przewyższyć firmę NVIDIA w tej dziedzinie. Na przykład Ironwood oferuje znaczną ilość pamięci wbudowanej, podobną do układów GPU Blackwell B200 AI firmy NVIDIA. Mimo to, możliwości klastrowania SuperPoda, obejmujące 9216 układów, znacznie zwiększają całkowitą pojemność pamięci.

Zbliżenie płyty głównej serwera, ukazujące metalowe bloki chłodzące, radiatory i podłączone rury do chłodzenia cieczą.
Płytka Ironwood prezentująca trzy procesory TPU Ironwood podłączone do chłodzenia cieczą.

Większa pojemność pamięci ma kluczowe znaczenie w scenariuszach wnioskowania, ponieważ minimalizuje opóźnienia w komunikacji między układami i zwiększa wydajność opóźnień w dużych modelach, co wzmacnia atrakcyjność Ironwood. Google skrupulatnie zaprojektował Ironwood z myślą o środowisku o niskim opóźnieniu, a jednocześnie poprawił efektywność energetyczną – co stanowi kluczowy aspekt oczekiwanego sukcesu firmy.

Hiperskalowe wnioskowanie wymaga tysięcy układów scalonych, które mogą stale i efektywnie obsługiwać żądania zapytań, co sprawia, że ​​koszty wdrożenia i eksploatacji są dla dostawców usług chmurowych (CSP) priorytetem, a nie surowa wydajność. W tym celu Google osiągnął dwukrotną poprawę efektywności energetycznej dzięki Ironwood, dzięki czemu jego procesory TPU są bardziej ekonomiczne w przypadku powszechnych zastosowań wnioskowania.

Procesor graficzny NVIDIA Rubin CPX w szerokim kontekście, zaprezentowany z takimi funkcjami jak 128 GB pamięci GDDR7 i dostępnością pod koniec 2026 r.
Zdjęcie: NVIDIA Corporation

Paradygmat rywalizacji w dziedzinie sztucznej inteligencji (AI) odchodzi od prostego osiągania najwyższych FLOPS-ów na rzecz bardziej zniuansowanej rywalizacji, obejmującej możliwości obsługi zapytań, redukcję opóźnień, koszty operacyjne i efektywność energetyczną. Ta ewolucja otwiera przed Google nowe możliwości szybkiego zdobycia pozycji, wykorzystując potencjalne słabości długoletniej dominacji firmy NVIDIA w dziedzinie AI. Co istotne, Ironwood będzie dostępny wyłącznie za pośrednictwem Google Cloud, co może ułatwić integrację z ekosystemem i potencjalnie zagrozić ugruntowanej pozycji firmy NVIDIA. Wieloetapowy rozwój procesorów TPU Google podkreśla ich konkurencyjny charakter, sygnalizując zmianę, która powinna znaleźć odzwierciedlenie w strategicznym planowaniu firmy NVIDIA.

Mimo to NVIDIA nie pozostaje bierna wobec tego nowego wyzwania; w odpowiedzi wprowadza na rynek Rubina CPX, dążąc do wyrobienia sobie znaczącej niszy dzięki zoptymalizowanym rozwiązaniom rackowym. Coraz wyraźniej jednak widać, że Google ugruntowuje swoją pozycję groźnego rywala dla NVIDII, podczas gdy Intel i AMD pozostają w tyle pod względem wpływów i innowacji.

W ciekawym komentarzu Jensen Huang w wywiadzie udzielonym wcześniej podzielił się przemyśleniami na temat możliwości TPU firmy Google, podkreślając złożoność i konkurencyjność jej ofert:

Do tego momentu… jedną z najważniejszych debat… jest kwestia układów GPU kontra ASIC, TPU Google’a, Trainium Amazona. Google… Zaczęli prace nad TPU1, zanim wszystko się zaczęło… Wyzwanie dla osób tworzących układy ASIC.

TPU jest na TPU 7. Tak. Jasne. I to również dla nich wyzwanie. Jasne. A praca, którą wykonują, jest niesamowicie ciężka.

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *