Microsoft dévoile une nouvelle architecture Azure AI Superfactory

Microsoft annonce un nouveau site de centre de données Azure AI à Atlanta

Aujourd’hui, Microsoft a officiellement dévoilé son projet de nouveau centre de données Azure AI à Atlanta, en Géorgie. Ce centre ultramoderne sera interconnecté avec le site existant de Fairwater, dans le Wisconsin, et comprendra plusieurs supercalculateurs Azure AI. L’objectif est de créer un centre de données IA d’envergure planétaire, capable de gérer efficacement une grande variété de tâches d’IA.

Une conception innovante révolutionne les centres de données d’IA

S’appuyant sur l’expérience acquise lors de la conception de centres de données adaptés aux besoins d’entraînement d’OpenAI et d’autres applications d’IA, Microsoft affirme avoir transformé l’architecture des centres de données dédiés à l’IA. Cette nouvelle architecture repose sur une structure réseau plate qui exploite la puissance de calcul de nombreux GPU NVIDIA GB200 et GB300, offrant ainsi des performances sans précédent.

Principales caractéristiques du nouveau centre de données

Le futur centre de données d’Atlanta introduira plusieurs fonctionnalités révolutionnaires qui le distingueront de ses prédécesseurs :

Haute densité de GPU : des racks conçus sur mesure et agencés de manière optimale pour un placement maximal des GPU, ce qui minimise la latence et améliore l’intercommunication des GPU.
Refroidissement liquide en circuit fermé : un système de refroidissement scellé innovant qui permet d’économiser l’eau, en utilisant la même réserve pendant plus de six ans avec une évaporation minimale, favorisant ainsi la durabilité tout en prenant en charge le calcul haute densité.
Alimentation électrique robuste : avec une puissance impressionnante d’environ 140 kW par rack et d’environ 1, 36 MW par rangée, cette configuration est conçue pour accueillir les accélérateurs de nouvelle génération sans rencontrer les restrictions de puissance conventionnelles.
Réseau plat à large bande passante : intégrant une architecture Ethernet à deux niveaux offrant une connectivité GPU de 800 Gbit/s et un réseau basé sur SONiC, cette conception vise à minimiser les coûts, la complexité et la dépendance à l’égard de fournisseurs spécifiques.
Optimisation du réseau en fonction des applications : des fonctionnalités telles que la gestion des paquets en temps réel et l’équilibrage de charge sophistiqué garantissent une utilisation optimale des vastes clusters GPU.
WAN IA à l’échelle planétaire : la connexion de plusieurs sites, dont Atlanta et le Wisconsin, via un réseau dorsal optique dédié à faible latence crée un « supercalculateur » cohérent couvrant des régions.
Modèle de puissance résiliente : cette approche utilise des réseaux électriques locaux robustes pour une fiabilité accrue, intégrant des solutions de stockage d’énergie pour s’adapter aux variations des besoins en énergie liés à la charge de travail.
Prise en charge polyvalente des charges de travail d’IA : L’infrastructure est conçue pour exécuter efficacement une variété de tâches d’IA, allant du pré-entraînement et du réglage fin à l’apprentissage par renforcement, à l’inférence et à la génération de données synthétiques, sur une plateforme unifiée.

Se positionner pour répondre à la demande future en matière de charges de travail d’IA

En mettant en place un supercalculateur multirégional unifié, Microsoft se positionne stratégiquement pour répondre à la demande croissante liée aux flux de travail d’IA à grande échelle prévus dans les années à venir.

Source et images