Dans le cadre d’un récent projet de recherche, AMD étudie des méthodes d’intégration du cache L2 en configuration empilée au sein de ses futurs processeurs. Ce développement vise à maintenir, voire à améliorer, les performances en matière de latence.
Progrès dans la conception des puces : exploration par AMD du cache L2 empilé
AMD a publié un document de recherche intéressant intitulé « Cache empilé à latence équilibrée », associé à la demande de brevet n° [numéro de demande de brevet] US20260003794A1. Dans ce document, AMD décrit des méthodologies pour un système de cache empilé à latence équilibrée, qui intègre au moins deux puces de cache empilées verticalement.

AMD est déjà réputée pour l’utilisation de la technologie de cache empilé dans sa gamme de produits 3D V-Cache, qui introduit une couche supplémentaire de cache L3 positionnée au-dessus ou en dessous des chiplets de calcul du cœur. La première version de 3D V-Cache était placée au-dessus des chiplets de calcul Zen, tandis que la seconde génération a inversé cette configuration, plaçant la pile sous le chiplet de calcul. Bien que la stratégie reste la même, les configurations diffèrent en termes d’exécution.
La technologie 3D V-Cache, ou X3D, est déployée sur diverses puces AMD, de la gamme grand public « Ryzen » à la série haute performance « EPYC » conçue pour les centres de données. Alors qu’AMD poursuit ses innovations en matière de cache 3D V-Cache de niveau 3, l’entreprise s’apprête à étendre sa technologie de mise en cache en explorant le potentiel des caches L2 empilés, comme le suggère son dernier brevet.

Pour la conception de son cache L2 empilé, AMD présente une puce de base intégrant les puces de calcul et de cache, surmontée d’une puce de calcul et de cache supplémentaire. Cette configuration illustre un module de cache composé de quatre segments de 512 Ko, pour une capacité totale de 2 Mo de cache L2, géré par le circuit de contrôle de cache (CCC).L’architecture est évolutive, avec des configurations permettant d’atteindre jusqu’à 4 Mo de cache L2, comme le montre le schéma fonctionnel ci-joint.

La stratégie d’empilement reprend les principes du cache en V 3D, reliant les caches L2 et L3 à la puce de base et aux complexes de calcul par des vias en silicium alignés verticalement. Le contrôleur de cache (CCC) gère le flux de données dans l’ensemble du système.
Un point notable des conclusions d’AMD concerne la comparaison de la latence entre les configurations planaires et empilées. L’étude indique qu’un cache L2M planaire de 1 Mo présente généralement une latence de 14 cycles, tandis qu’une version empilée réduit cette latence à seulement 12 cycles. Ainsi, la configuration de cache L2 empilée offre non seulement une capacité accrue, mais elle atteint également une latence égale ou inférieure à celle des configurations planaires traditionnelles.

Dans certains aspects des techniques décrites, la configuration du système de cache empilé réduit la latence de réponse lors de l’accès au cache et permet également des économies d’énergie. Ce système améliore les performances de transfert de données et présente une latence inférieure à celle d’un cache planaire classique intégré sur une seule puce. Notamment, les vias de connexion sont acheminés vers et depuis le centre du système de cache empilé. Ceci évite l’ajout d’étages de câblage (également appelés étages tubulaires), comme dans un cache planaire classique, pour acheminer les données à travers une partie du cache afin d’atteindre une portion plus éloignée des entrées/sorties de données.
Dans les techniques décrites, les vias de connexion, acheminés au centre du système de cache empilé, créent des latences équilibrées (ou identiques) entre les deux moitiés du système de cache empilé sur la puce empilée (par exemple, entre la première puce de cache et au moins la seconde).Par exemple, un cache L2M planaire classique de 1 Mo présente une latence de 14 cycles, tandis qu’un cache L2M empilé de 1 Mo, implémenté à l’aide des techniques décrites, n’affiche qu’une latence de 12 cycles. Ceci permet la mise en œuvre d’un cache empilé de plus grande capacité qu’un cache planaire classique, tout en conservant une latence équivalente, voire inférieure.
Par conséquent, les caractéristiques décrites du cache empilé à latence équilibrée permettent de réduire la latence des requêtes d’accès et d’accélérer le retour des données depuis le cache. On observe également des économies d’énergie, car les requêtes d’accès sont effectuées en moins de cycles ; par exemple, un cache L2 reste moins longtemps actif. De plus, la transition rapide de l’état actif à l’état inactif du cache permet de réaliser des économies d’énergie. Par ailleurs, la longueur des pistes dans la puce du cache est réduite, ce qui diminue la capacité et contribue également à la réduction de la consommation d’énergie. La charge du signal est également moindre, car les signaux ne parcourent que la moitié de la distance lors d’une requête d’accès et lors du retour des données.Enfin, la chaleur générée est réduite grâce aux économies d’énergie, à la capacité réduite et à la diminution de la distance parcourue par les signaux.
Au-delà de la simple réduction de la latence, AMD met l’accent sur l’efficacité énergétique obtenue grâce à la conception du cache L2 empilé. Bien qu’il faille probablement attendre un certain temps avant de voir une application concrète de ce type de cache dans le matériel, on peut raisonnablement espérer que cette innovation sera intégrée à la prochaine génération de processeurs et de GPU AMD, révélant ainsi de nouvelles avancées dans la conception des puces.
Source d’information : Kepler_L2
Laisser un commentaire