La supercomputadora Frontier con tecnología AMD utiliza 3K de sus GPU MI250X de 37K para lograr una increíble ejecución de LLM de 1 billón de parámetros, comparable a ChatGPT-4

La supercomputadora Frontier con tecnología AMD utiliza 3K de sus GPU MI250X de 37K para lograr una increíble ejecución de LLM de 1 billón de parámetros, comparable a ChatGPT-4

La supercomputadora Frontier con tecnología AMD y GPU Instinct MI250X ha logrado una ejecución LLM de 1 billón de parámetros, rivalizando con ChatGPT-4.

La supercomputadora Frontier establece nuevos récords en el espacio de la capacitación LLM, cortesía de las CPU y procesadores EPYC de AMD. GPU instintivas

La supercomputadora Frontier es la supercomputadora líder del mundo y la única máquina exaescala que está operativa actualmente. Esta máquina funciona con EPYC & Hardware Instinct que no sólo ofrece el rendimiento HPC superior sino que también es el segundo superordenador más eficiente del planeta a> por individuos ha revelado que la supercomputadora Frontier ha alcanzado la capacidad de entrenar un billón de parámetros a través del «ajuste de hiperparámetros», estableciendo una nueva industria. punto de referencia.Arxiv

Antes de entrar en el quid de la cuestión, hagamos un breve resumen de lo que contiene la supercomputadora Frontier. La supercomputadora de ORNL ha sido diseñada desde cero con CPU EPYC Trento de tercera generación de AMD y aceleradores de GPU Instinct MI250X. Está instalado en el Laboratorio Nacional Oak Ridge (ORNL) en Tennessee, EE. UU., donde es operado por el Departamento de Energía (DOE). Actualmente ha alcanzado 1.194 Exaflop/s utilizando 8.699.904 núcleos. La arquitectura HPE Cray EX combina CPU AMD EPYC de tercera generación optimizadas para HPC e IA, con aceleradores AMD Instinct 250X y una interconexión Slingshot-11. Frontier ha podido mantener el puesto número uno en la lista de supercomputadoras Top500.org, lo que demuestra su dominio.

Los nuevos récords logrados por Frontier son el resultado de la implementación de estrategias efectivas para capacitar a los LLM y utilizar el hardware integrado de manera más eficiente. El equipo ha podido lograr resultados notables a través de pruebas exhaustivas de 22 mil millones, 175 mil millones y 1 billón de parámetros, y las cifras obtenidas son el resultado de optimizar y ajustar el proceso de capacitación del modelo. Los resultados se lograron empleando hasta 3000 aceleradores de IA MI250X de AMD, que han demostrado su destreza a pesar de ser una pieza de hardware relativamente obsoleta.

Lo que es más interesante es que toda la supercomputadora Frontier alberga 37.000 GPU MI250X, por lo que uno puede imaginar el tipo de rendimiento cuando se utiliza todo el conjunto de GPU para alimentar los LLM. AMD también está a punto de implementar sus aceleradores GPU MI300 en nuevas supercomputadoras con un robusto ecosistema ROCm 6.0. que acelera aún más el rendimiento de la IA.

Para los parámetros de 22 mil millones, 175 mil millones y 1 billón, logramos rendimientos de GPU de 38,38 %, 36,14 % y 31,96 %, respectivamente. Para el entrenamiento del modelo de parámetros de 175 mil millones y el modelo de parámetros de 1 billón, logramos una eficiencia de escalado débil del 100% en GPU MI250X 1024 y 3072, respectivamente. También logramos sólidas eficiencias de escalamiento del 89 % y 87 % para estos dos modelos.

– Arvix

Fuente de noticias: Arvix

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *