AMD explore l’empilement du cache L2 pour ses futures puces afin d’améliorer la latence au-delà des conceptions traditionnelles après l’empilement du cache L3.

Dans le cadre d’un récent projet de recherche, AMD étudie des méthodes d’intégration du cache L2 en configuration empilée au sein de ses futurs processeurs. Ce développement vise à maintenir, voire à améliorer, les performances en matière de latence.

Progrès dans la conception des puces : exploration par AMD du cache L2 empilé

AMD a publié un document de recherche intéressant intitulé « Cache empilé à latence équilibrée », associé à la demande de brevet n° [numéro de demande de brevet] US20260003794A1. Dans ce document, AMD décrit des méthodologies pour un système de cache empilé à latence équilibrée, qui intègre au moins deux puces de cache empilées verticalement.

Une diapositive de présentation intitulée « Technologie AMD 3D V-Cache de 2e génération » illustre des fonctionnalités telles que « Jusqu'à 8 cœurs Zen 5 CCD », « Puce de cache L3 de 64 Mo », « Interconnexions traversantes en silicium (TSV) pour la communication silicium-silicium » et « Liaison directe cuivre-cuivre ».

AMD est déjà réputée pour l’utilisation de la technologie de cache empilé dans sa gamme de produits 3D V-Cache, qui introduit une couche supplémentaire de cache L3 positionnée au-dessus ou en dessous des chiplets de calcul du cœur. La première version de 3D V-Cache était placée au-dessus des chiplets de calcul Zen, tandis que la seconde génération a inversé cette configuration, plaçant la pile sous le chiplet de calcul. Bien que la stratégie reste la même, les configurations diffèrent en termes d’exécution.

La technologie 3D V-Cache, ou X3D, est déployée sur diverses puces AMD, de la gamme grand public « Ryzen » à la série haute performance « EPYC » conçue pour les centres de données. Alors qu’AMD poursuit ses innovations en matière de cache 3D V-Cache de niveau 3, l’entreprise s’apprête à étendre sa technologie de mise en cache en explorant le potentiel des caches L2 empilés, comme le suggère son dernier brevet.

Un diagramme intitulé « FIG.3 » illustre une comparaison d'une conception de noyau à plusieurs niveaux avec « Noyau 310 » et « Puce de base 304 » en haut par rapport à une structure complexe comportant plusieurs configurations de « Puce L2 » et « Puce L3 » sur « Puce de base 406 » en dessous. — Source de l’image : Brevet AMD

Pour la conception de son cache L2 empilé, AMD présente une puce de base intégrant les puces de calcul et de cache, surmontée d’une puce de calcul et de cache supplémentaire. Cette configuration illustre un module de cache composé de quatre segments de 512 Ko, pour une capacité totale de 2 Mo de cache L2, géré par le circuit de contrôle de cache (CCC).L’architecture est évolutive, avec des configurations permettant d’atteindre jusqu’à 4 Mo de cache L2, comme le montre le schéma fonctionnel ci-joint.

Un diagramme intitulé « Cache empilé à latence équilibrée » illustrant la structure d'une puce de cache avec des sections étiquetées, notamment « Région de 512 Ko », « Champ d'étiquette » et « Circuit de contrôle du cache », ainsi qu'une puce de base. — Source de l’image : Brevet AMD

La stratégie d’empilement reprend les principes du cache en V 3D, reliant les caches L2 et L3 à la puce de base et aux complexes de calcul par des vias en silicium alignés verticalement. Le contrôleur de cache (CCC) gère le flux de données dans l’ensemble du système.

Un point notable des conclusions d’AMD concerne la comparaison de la latence entre les configurations planaires et empilées. L’étude indique qu’un cache L2M planaire de 1 Mo présente généralement une latence de 14 cycles, tandis qu’une version empilée réduit cette latence à seulement 12 cycles. Ainsi, la configuration de cache L2 empilée offre non seulement une capacité accrue, mais elle atteint également une latence égale ou inférieure à celle des configurations planaires traditionnelles.

Un schéma intitulé « FIG.6 » montre une puce de base « 606 » avec des composants « L2 Die » et « L3 Die » empilés et reliés par les marqueurs « 602 », « 604 » et « 608 ». — Source de l’image : Brevet AMD

Dans certains aspects des techniques décrites, la configuration du système de cache empilé réduit la latence de réponse lors de l’accès au cache et permet également des économies d’énergie. Ce système améliore les performances de transfert de données et présente une latence inférieure à celle d’un cache planaire classique intégré sur une seule puce. Notamment, les vias de connexion sont acheminés vers et depuis le centre du système de cache empilé. Ceci évite l’ajout d’étages de câblage (également appelés étages tubulaires), comme dans un cache planaire classique, pour acheminer les données à travers une partie du cache afin d’atteindre une portion plus éloignée des entrées/sorties de données.

Dans les techniques décrites, les vias de connexion, acheminés au centre du système de cache empilé, créent des latences équilibrées (ou identiques) entre les deux moitiés du système de cache empilé sur la puce empilée (par exemple, entre la première puce de cache et au moins la seconde).Par exemple, un cache L2M planaire classique de 1 Mo présente une latence de 14 cycles, tandis qu’un cache L2M empilé de 1 Mo, implémenté à l’aide des techniques décrites, n’affiche qu’une latence de 12 cycles. Ceci permet la mise en œuvre d’un cache empilé de plus grande capacité qu’un cache planaire classique, tout en conservant une latence équivalente, voire inférieure.

Par conséquent, les caractéristiques décrites du cache empilé à latence équilibrée permettent de réduire la latence des requêtes d’accès et d’accélérer le retour des données depuis le cache. On observe également des économies d’énergie, car les requêtes d’accès sont effectuées en moins de cycles ; par exemple, un cache L2 reste moins longtemps actif. De plus, la transition rapide de l’état actif à l’état inactif du cache permet de réaliser des économies d’énergie. Par ailleurs, la longueur des pistes dans la puce du cache est réduite, ce qui diminue la capacité et contribue également à la réduction de la consommation d’énergie. La charge du signal est également moindre, car les signaux ne parcourent que la moitié de la distance lors d’une requête d’accès et lors du retour des données.Enfin, la chaleur générée est réduite grâce aux économies d’énergie, à la capacité réduite et à la diminution de la distance parcourue par les signaux.

via un document de recherche d’AMD (brevets Google)

Au-delà de la simple réduction de la latence, AMD met l’accent sur l’efficacité énergétique obtenue grâce à la conception du cache L2 empilé. Bien qu’il faille probablement attendre un certain temps avant de voir une application concrète de ce type de cache dans le matériel, on peut raisonnablement espérer que cette innovation sera intégrée à la prochaine génération de processeurs et de GPU AMD, révélant ainsi de nouvelles avancées dans la conception des puces.

https://www.youtube.com/watch?v=3qNroio4vQg

AMD's SECRET WEAPON For Zen: Stacked L2 Cache Patent Analysis (https://www.youtube.com/watch?v=3qNroio4vQg)

Source d’information : Kepler_L2

Source et images

AMD explore l’empilement du cache L2 pour ses futures puces afin d’améliorer la latence au-delà des conceptions traditionnelles après l’empilement du cache L3.

Progrès dans la conception des puces : exploration par AMD du cache L2 empilé

Jeux abordables : Configuration système requise mise à jour pour 007 First Light avec des recommandations de RAM et de VRAM inférieures

Un développeur de Bethesda réagit aux critiques de Fallout 3 : « Quand les gens décident que vous allez échouer, c’est étonnamment libérateur »