Rubin di NVIDIA si integra con la macchina virtuale di Google, espandendo i cluster multi-sito fino a quasi 1 milione di GPU.

Grazie a una straordinaria collaborazione, Google e NVIDIA uniscono le forze per offrire agli utenti l’accesso a un massimo di un milione di GPU NVIDIA. Questa iniziativa rientra nel lancio delle nuove istanze A5X, progettate per ridurre i costi di inferenza e migliorare la velocità di elaborazione dei token. Il sistema A5X integra gli acceleratori di rete avanzati di NVIDIA, ponendo le basi per solide infrastrutture di calcolo a cluster singolo e multiplo, specificamente progettate per i carichi di lavoro di intelligenza artificiale.

Presentiamo l’istanza A5X: progettata su misura per l’IA agentiva.

L’istanza A5X rappresenta l’ultimo sviluppo di Google, progettato specificamente per carichi di lavoro di intelligenza artificiale agentiva. Fa parte del portfolio in espansione di Hypercomputer per l’IA che supporta la piattaforma Gemini di Google, la quale a sua volta supporta diverse applicazioni di IA per utenti privati e aziende. Questa nuova offerta si accompagna a significativi aggiornamenti di Hypercomputer, che includono macchine virtuali appositamente progettate e basate su CPU Arm personalizzate, processori tensoriali di ottava generazione, supporto nativo per TPU PyTorch e, naturalmente, le innovative istanze A5X.

Progettate per gestire scenari di intelligenza artificiale agentiva, le istanze A5X sfruttano un insieme di agenti IA, implementando una metodologia a fasi per risolvere problemi complessi. In particolare, queste istanze sono le prime di Google a essere compatibili con le GPU per IA all’avanguardia Vera Rubin di NVIDIA.

Una diapositiva di presentazione che mostra la GPU Rubin e la LPU Groq 3 con le relative specifiche, insieme a una persona sul palco, sotto il titolo "Unire processori dalle prestazioni estreme".

Google Virgo e ConnectX-9: Scalabilità dell’infrastruttura di intelligenza artificiale

Le istanze A5X sfrutteranno le capacità delle schede di interfaccia di rete (NIC) ConnectX-9 di NVIDIA, progettate per potenziare i carichi di lavoro di intelligenza artificiale negli ambienti cloud che utilizzano Ethernet. Questa sinergia tecnologica, combinata con la piattaforma Virgo di Google, consente agli utenti di implementare fino a 80.000 GPU Rubin all’interno di un singolo cluster e ben 960.000 GPU in cluster multi-sito.

Componente	Cluster di data center singolo massimo	Cluster multisito massimo
GPU NVIDIA Vera Rubin	80.000	960.000
TPU personalizzate di Google	134.000	Oltre 1.000.000
Infrastruttura di rete	Schede di rete NVIDIA ConnectX-9	Piattaforma Google Virgo

Conseguimento del ROI: costi di inferenza drasticamente ridotti e produttività migliorata.

La piattaforma Google Virgo facilita una connettività senza precedenti tra numerosi chip AI all’interno di un singolo data center. Questa solida infrastruttura non solo funziona in parallelo con le GPU Vera Rubin di NVIDIA, ma si integra perfettamente anche con le unità di elaborazione tensoriale (TPU) di Google. Virgo può collegare fino a 134.000 TPU in un unico data center e oltre un milione di chip in diverse sedi. In particolare, NVIDIA afferma che le istanze A5X possono offrire una riduzione di dieci volte dei costi di inferenza per token, aumentando al contempo la velocità di elaborazione di dieci volte per megawatt, rispetto ai modelli precedenti.

Inoltre, NVIDIA sottolinea la sua collaborazione con leader del settore come Cadence e Siemens, mostrando come i loro prodotti siano basati su questa infrastruttura e accessibili tramite Google Cloud. La piattaforma Gemini di Google, inoltre, è pronta a implementare modelli e flussi di lavoro basati su agenti in una vasta gamma di settori, tra cui la sicurezza informatica.

Fonte e immagini

Rubin di NVIDIA si integra con la macchina virtuale di Google, espandendo i cluster multi-sito fino a quasi 1 milione di GPU.

Presentiamo l’istanza A5X: progettata su misura per l’IA agentiva.

Google Virgo e ConnectX-9: Scalabilità dell’infrastruttura di intelligenza artificiale

Conseguimento del ROI: costi di inferenza drasticamente ridotti e produttività migliorata.

Articoli correlati:

Nuove funzionalità DX12 in Microsoft Shader Model 6.10 e anteprima di AgilitySDK 720 per il rendering neurale

Valve conferma la fuga di notizie sul controller Steam: data di uscita e prezzo in vista; nessun aggiornamento per Steam Machine, ma prospettive positive da parte di Valve.

Lascia un commento Annulla risposta