AMD untersucht die Stapelung des L2-Caches für zukünftige Chips, um die Latenz über herkömmliche Designs hinaus zu verbessern, nachdem der L3-Cache bereits gestapelt wurde.

AMD untersucht die Stapelung des L2-Caches für zukünftige Chips, um die Latenz über herkömmliche Designs hinaus zu verbessern, nachdem der L3-Cache bereits gestapelt wurde.

In einer aktuellen Forschungsinitiative untersucht AMD Methoden zur Integration des L2-Cache in einer gestapelten Konfiguration in seinen kommenden Prozessoren. Diese Entwicklung zielt darauf ab, die Latenzleistung beizubehalten oder sogar zu verbessern.

Fortschritte im Chipdesign: AMDs Untersuchung des gestapelten L2-Cache

AMD hat eine interessante Forschungsarbeit mit dem Titel „ Balanced Latency Stacked Cache “ veröffentlicht, die mit der Patentanmeldungsnummer verknüpft ist US20260003794A1. In dieser Arbeit beschreibt AMD Methoden für ein gestapeltes Cache-System mit ausgeglichener Latenz, das mindestens zwei vertikal gestapelte Cache-Chips umfasst.

Eine Präsentationsfolie mit dem Titel „AMD 3D V-Cache-Technologie der 2. Generation“ veranschaulicht Merkmale wie „Bis zu 8-Kern-Zen-5-CCD“, „64 MB L3-Cache-Die“, „Through Silicon Vias (TSVs) für die Silizium-zu-Silizium-Kommunikation“ und „Direkte Kupfer-zu-Kupfer-Verbindung“.

AMD ist bereits bekannt für die Verwendung von gestapeltem Cache in seiner 3D-V-Cache-Produktlinie. Diese führt eine zusätzliche L3-Cache-Ebene ein, die entweder oberhalb oder unterhalb der Kern-Rechenchiplets positioniert ist. Die erste Generation des 3D-V-Cache befand sich oberhalb der Zen-Rechenchiplets, während die zweite Generation diese Konfiguration umkehrte und den Stapel unterhalb des Rechenchiplets platzierte. Obwohl die Strategie gleich bleibt, unterscheiden sich die Konfigurationen in der Umsetzung.

Die 3D-V-Cache- oder X3D-Technologie kommt in verschiedenen AMD-Chips zum Einsatz, von der Consumer-Familie „Ryzen“ bis hin zur Hochleistungsserie „EPYC“ für Rechenzentren. Mit den Fortschritten bei den L3-3D-V-Cache-Innovationen plant AMD nun, seine Caching-Technologie durch die Untersuchung des Potenzials gestapelter L2-Caches zu erweitern, wie ein aktuelles Patent nahelegt.

Ein Diagramm mit der Bezeichnung „FIG.3“ veranschaulicht den Vergleich eines mehrstufigen Kerndesigns mit „Core 310“ und „Base Die 304“ oben und einer komplexen Struktur mit mehreren „L2 Die“- und „L3 Die“-Konfigurationen auf dem darunter liegenden „Base Die 406“.
Bildquelle: AMD-Patent

Für das Design seines gestapelten L2-Caches veranschaulicht AMD einen Basischip mit integrierten Rechen- und Cache-Chips sowie einen darüberliegenden zusätzlichen Rechen- und Cache-Chip. Diese Konfiguration zeigt ein Cache-Modul, das aus vier 512-KB-Segmenten besteht und insgesamt 2 MB L2-Cache umfasst, der von der Cache-Control-Schaltung (CCC) verwaltet wird. Die Architektur ist skalierbar und ermöglicht Designs mit bis zu 4 MB L2-Cache, wie im beigefügten Blockdiagramm dargestellt.

Ein Diagramm mit dem Titel „Balanced Latency Stacked Cache“ veranschaulicht die Struktur eines Cache-Chips mit beschrifteten Abschnitten wie „512KB Region“, „Tag Field“ und „Cache Control Circuitry“ sowie einem Basischip.
Bildquelle: AMD-Patent

Die Stapelstrategie spiegelt die Prinzipien des 3D-V-Cache wider und verbindet die L2- und L3-Caches über vertikal ausgerichtete Silizium-Vias mit dem Basischip und den Rechenkomplexen. Der CCC steuert den Datenfluss im gesamten System.

Ein wichtiger Punkt in AMDs Forschungsergebnissen ist der Vergleich der Latenz zwischen planaren und gestapelten Konfigurationen. Die Studie zeigt, dass ein planarer 1-MB-L2M-Cache typischerweise eine Latenz von 14 Zyklen aufweist, während eine gestapelte Version diese Latenz auf nur 12 Zyklen reduziert. Somit unterstützt die gestapelte L2-Cache-Konfiguration nicht nur eine höhere Kapazität, sondern erzielt im Vergleich zu herkömmlichen planaren Aufbauten auch eine gleichwertige oder sogar geringere Latenz.

Ein Diagramm mit der Bezeichnung „Abb.6“ zeigt einen Basisstempel „606“ mit gestapelten Komponenten „L2 Die“ und „L3 Die“, die durch die Markierungen „602“, „604“ und „608“ verbunden sind.
Bildquelle: AMD-Patent

Die Konfiguration des gestapelten Cache-Systems reduziert die Antwortlatenz beim Zugriff auf den Cache und bietet zudem eine Energieeinsparung. Das gestapelte Cache-System verbessert die Datenübertragungsleistung und weist eine geringere Latenz als ein herkömmlicher planarer Cache auf einem einzelnen Chip auf. Die Verbindungsleitungen sind zentral in das gestapelte Cache-System ein- und ausgeleitet. Dadurch entfällt das Hinzufügen von Leitungsstufen (im Folgenden auch als Pipe-Stufen bezeichnet), wie es bei einem herkömmlichen planaren Cache erforderlich ist, um Daten über einen Teil des Caches zu einem weiter von den Daten-I/Os entfernten Bereich zu leiten.

Bei den beschriebenen Verfahren sorgen die mittig im gestapelten Cache-System verlegten Durchkontaktierungen für ausgeglichene (oder identische) Latenzen zwischen den beiden Hälften des gestapelten Cache-Systems auf dem gestapelten Chip (z. B.zwischen dem ersten und dem mindestens zweiten Cache-Chip).Beispielsweise weist ein herkömmlicher planarer 1-MB-L2M-Cache eine Latenz von 14 Zyklen auf, während ein mit den beschriebenen Verfahren implementierter gestapelter 1-MB-L2M-Cache nur eine Latenz von 12 Zyklen aufweist. Dies ermöglicht die Implementierung eines größeren gestapelten Caches als eines typischen planaren Caches bei gleicher oder sogar besserer Latenz.

Die beschriebenen Aspekte eines gestapelten Caches mit ausgeglichener Latenz ermöglichen geringere Latenzzeiten bei Zugriffsanfragen und eine schnellere Datenrückgabe aus dem Datencache. Da Zugriffsanfragen in weniger Zyklen bearbeitet werden, wird zudem Energie gespart, beispielsweise durch eine kürzere Nutzungsdauer des L2-Caches. Auch der schnellere Übergang vom aktiven in den inaktiven Zustand des Caches trägt zur Energieeinsparung bei. Darüber hinaus sind die Leiterbahnen im Cache-Chip kürzer, was die Kapazität reduziert und somit ebenfalls Energie spart. Die Signalbelastung ist geringer, da die Signale für Zugriffsanfrage und Datenrückgabe nur die halbe Strecke zurücklegen müssen.Durch die Energieeinsparung, die geringere Kapazität und die kürzeren Signalwege wird außerdem weniger Wärme erzeugt.

via AMD-Forschungspapier (Google Patents)

Neben der reinen Latenzreduzierung hebt AMD die durch das gestapelte L2-Cache-Design erzielte Energieeffizienz hervor. Auch wenn es noch einige Zeit dauern mag, bis gestapelte L2-Caches in der Praxis Anwendung finden, besteht großer Optimismus, dass diese Innovation in der nächsten Generation von AMD-Prozessoren und -GPUs gleichermaßen zum Einsatz kommen und weitere Fortschritte im Chipdesign ermöglichen wird.

Nachrichtenquelle: Kepler_L2

Quellen & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert