Google desafía a las GPU Nvidia Blackwell con las últimas TPU Trillium

Las TPU Trillium de Google: una nueva era en la aceleración de la IA

Hace una década, Google se embarcó en su viaje para crear aceleradores de IA personalizados conocidos como unidades de procesamiento tensorial (TPU). A principios de 2023, el gigante tecnológico presentó su TPU de sexta generación, llamada Trillium, que establece nuevos puntos de referencia tanto en rendimiento como en eficiencia, superando a los modelos anteriores. Hoy, Google anunció que las TPU Trillium ahora son universalmente accesibles para los clientes de Google Cloud, al tiempo que reveló que estas poderosas TPU fueron fundamentales para entrenar su último modelo, Gemini 2.0.

Cómo entrar en el ecosistema de desarrollo de IA

Las GPU de Nvidia se han convertido en una opción dominante entre los desarrolladores de IA, no solo por su excepcional hardware, sino también por su sólido soporte de software. Para fomentar un entusiasmo similar por las TPU de Trillium, Google ha realizado mejoras significativas en su marco de software. Esto incluye optimizaciones para el compilador XLA, así como marcos de IA populares como JAX, PyTorch y TensorFlow, lo que permite a los desarrolladores maximizar la rentabilidad en el entrenamiento, ajuste e implementación de IA.

Principales mejoras en las TPU de Trillium

Las TPU Trillium ofrecen una gama de mejoras sustanciales con respecto a la generación anterior, que incluyen:

El rendimiento del entrenamiento aumentó más de 4 veces

Rendimiento de inferencia mejorado hasta 3 veces

La eficiencia energética aumenta un 67%

El rendimiento máximo de procesamiento por chip se incrementó en un impresionante 4,7x

Se duplicó la capacidad de memoria de gran ancho de banda (HBM)

El ancho de banda de Interchip Interconnect (ICI) también se duplicó

Capacidad para implementar 100.000 chips Trillium en una red unificada de Jupiter

El rendimiento del entrenamiento por dólar mejoró hasta 2,5 veces y el rendimiento de la inferencia hasta 1,4 veces

Escalabilidad y disponibilidad

Google ha informado que las TPU Trillium pueden lograr una impresionante eficiencia de escalamiento del 99 % con una configuración de 12 pods que constan de 3072 chips y una eficiencia del 94 % en 24 pods que utilizan 6144 chips, lo que las hace adecuadas para el preentrenamiento de modelos grandes como GPT-3 de 175 mil millones de parámetros.

Actualmente, Trillium está disponible para su implementación en regiones clave, como América del Norte (este de EE. UU.), Europa (oeste) y Asia (noreste). Para los usuarios interesados en la evaluación, el costo comienza en $2,7000 por chip-hora. Además, los compromisos a más largo plazo ofrecen tarifas reducidas de $1,8900 por chip-hora por un año y $1,2200 por chip-hora por un compromiso de tres años.

Conclusión

Con su escalabilidad y capacidades de software mejoradas, Trillium significa un avance sustancial en la estrategia de infraestructura de IA en la nube de Google, posicionándolo como un competidor formidable en el mercado en evolución de los aceleradores de IA.

Fuente e imágenes