Cache

Der Titel dieses Artikels ist mehrdeutig. Weitere Bedeutungen sind unter Cache (Begriffsklärung) aufgeführt.

Cache ([kæʃ], [kaʃ]^[1]) bezeichnet in der EDV einen schnellen Puffer-Speicher, der (wiederholte) Zugriffe auf ein langsames Hintergrundmedium oder aufwendige Neuberechnungen zu vermeiden hilft. Daten, die bereits einmal geladen oder generiert wurden, verbleiben im Cache, so dass sie bei späterem Bedarf schneller wieder abgerufen werden können. Auch können Daten, die vermutlich bald benötigt werden, vorab vom Hintergrundmedium abgerufen und vorerst im Cache bereitgestellt werden (read ahead).

Caches können als Hardware- oder Softwarestruktur ausgebildet sein.

Cache ist ein Lehnwort aus dem Englischen. Seinen Ursprung hat es im französischen cache, das eigentlich die Bedeutung Versteck besitzt.^[2]^[3] Der Name verdeutlicht den Umstand, dass dem Verwender in der Regel der Cache und seine Ersatzfunktion für das angesprochene Hintergrundmedium verborgen bleibt. Wer das Hintergrundmedium verwendet, muss Größe oder Funktionsweise des Caches prinzipiell nicht kennen, denn der Cache wird nicht direkt angesprochen. Der Verwender „spricht das Hintergrundmedium an“, stattdessen „antwortet“ jedoch der Cache – genau auf die Art und Weise, wie auch das Hintergrundmedium geantwortet, also Daten geliefert hätte. Wegen der Unsichtbarkeit dieser zwischengeschalteten Einheit spricht man auch von Transparenz. Praktisch ist er eine gespiegelte Ressource, die stellvertretend für das Original sehr schnell bearbeitet/verwendet wird.

Greifen außer dem den Cache verwendenden Gerät noch weitere auf das Hintergrundmedium zu, so kann es zu Inkonsistenzen kommen. Um auf ein identisches Datenabbild zugreifen zu können, ist es notwendig, vor dem Zugriff die Änderungen des Caches in das Hintergrundmedium zu übernehmen. Cachestrategien wie Write-Through oder Write-Back sind hier praktikabel. Im Extremfall muss ein kompletter „Cache Flush“ erfolgen.

Außerdem muss ggf. der Cache informiert werden, dass sich Daten auf dem Hintergrundmedium geändert haben und sein Inhalt nicht mehr gültig ist. Stellt die Cachelogik das nicht sicher, so ergibt sich als Nachteil, dass inzwischen im Hintergrundmedium oder im Rechenprogramm erfolgte Änderungen nicht erkannt werden. Bei Verdacht auf Änderungen, oder um sicherzugehen, dass der aktuelle Stand berücksichtigt wird, muss der Benutzer explizit eine Cache-Aktualisierung veranlassen.

Nutzen

Die Ziele beim Einsatz eines Caches sind eine Verringerung der Zugriffszeit und/oder eine Verringerung der Anzahl der Zugriffe auf ein langsames Hintergrundmedium. Das bedeutet insbesondere, dass sich der Einsatz von Caches nur dort lohnt, wo die Zugriffszeit auch signifikanten Einfluss auf die Gesamtleistung hat. Während das z. B. beim Prozessorcache der meisten (skalaren) Mikroprozessoren der Fall ist, trifft es nicht auf Vektorrechner zu, wo die Zugriffszeit eine untergeordnete Rolle spielt. Deswegen wird dort üblicherweise auf Caches verzichtet, weil diese keinen oder nur wenig Nutzen bringen.

Ein weiterer wichtiger Effekt beim Einsatz von Caches ist die Verringerung der notwendigen Datenübertragungsrate an die Anbindung des Hintergrundmediums (siehe z. B. Speicherhierarchie); das Hintergrundmedium kann also „langsamer angebunden“ werden, was z. B. geringere Kosten ergeben kann. Weil oft der Großteil der Anfragen vom Cache beantwortet werden kann („Cache Hit“, s. u.), sinkt die Anzahl der Zugriffe und damit die notwendige Übertragungsbandbreite. Zum Beispiel würde ein moderner Mikroprozessor ohne Cache selbst mit sehr kleiner Zugriffszeit des Hauptspeichers dadurch ausgebremst, dass nicht genügend Speicherbandbreite zur Verfügung steht, weil durch den Wegfall des Caches die Anzahl der Zugriffe auf den Hauptspeicher und damit die Anforderung an die Speicherbandbreite stark zunehmen würde.

Bei CPUs kann der Einsatz von Caches somit zum Verringern des Von-Neumann-Flaschenhalses der Von-Neumann-Architektur beitragen. Die Ausführungsgeschwindigkeit von Programmen kann dadurch im Mittel enorm gesteigert werden.

Ein Nachteil von Caches ist das schlecht vorhersagbare Zeitverhalten, da die Ausführungszeit eines Zugriffs aufgrund von Cache-Misses nicht immer konstant ist. Sind die Daten nicht im Cache, muss der Zugreifende warten, bis sie von dem langsamen Hintergrundmedium geladen wurden. Bei Prozessoren geschieht das oft bei Zugriffen auf bisher noch nicht verwendete Daten oder beim Laden des nächsten Programmbefehls bei (weiten) Sprüngen.

Cachehierarchie

Da es technisch aufwändig und damit meist wirtschaftlich nicht sinnvoll ist, einen Cache zu bauen, der sowohl groß als auch schnell ist, kann man mehrere Caches verwenden – z. B. einen kleinen schnellen und einen deutlich größeren, jedoch etwas langsameren Cache (der aber immer noch viel schneller ist als der zu cachende Hintergrundspeicher). Damit kann man die konkurrierenden Ziele von geringer Zugriffszeit und großem Cacheumfang gemeinsam realisieren. Das ist wichtig für die Hit Rate.

Existieren mehrere Caches, so bilden diese eine Cachehierarchie, die Teil der Speicherhierarchie ist. Die einzelnen Caches werden nach ihrer Hierarchieebene (engl. level) durchnummeriert, also Level‑1 bis Level‑n oder kurz L1, L2 usw. Je niedriger die Nummer, desto näher liegt der Cache am schnellen „Benutzer“; die niedrigste Nummer bezeichnet daher den Cache mit der schnellsten Zugriffszeit, dieser wird als erstes durchsucht. Enthält der L1-Cache die benötigten Daten nicht, wird der (meist etwas langsamere, aber größere) L2-Cache durchsucht usw. Das geschieht solange, bis die Daten entweder in einer Cacheebene gefunden (ein „Cache Hit“, s. u.) oder alle Caches ohne Erfolg durchsucht wurden (ein „Cache Miss“, s. u.). In letzterem Fall muss auf den langsamen Hintergrundspeicher zugegriffen werden.

Tritt ein Cache Hit z. B. im L3-Cache auf, so werden die angeforderten Daten dem Zugreifer geliefert und zugleich in den L1-Cache übernommen; dafür muss dort eine Cache-Line weichen, die in den L2-Cache „absinkt“.

Bei einem inklusiven Cache ist jeder Cache-Level für sich transparent, d. h. eine Cache-Line, die im L1-Cache ist, ist auch im L2- und L3-Cache vorhanden. Wird die Cache-Line aus dem L1-Cache „verdrängt“ (überschrieben mit Daten einer anderen Adresse), so muss sonst nichts unternommen werden – sie ist im L2-Cache ja immer noch vorhanden (sofern kein Write-Back o. ä. notwendig ist).
Bei einem exklusiven Cache ist eine Cache-Line einer Adresse nur einmal in allen Cache-Leveln vorhanden. Eine Cache-Line zu Adresse A im L1-Cache ist nicht zusätzlich im L2- oder L3-Cache vorhanden. Wird sie aus dem L1-Cache verdrängt, so kann sie entweder gänzlich verworfen werden, oder muss explizit in den L2-Cache kopiert werden. Dort wird somit ebenfalls eine (andere) Cache-Line verdrängt, um Platz zu machen für die absinkende. Diese andere sinkt nun ihrerseits in den L3-Cache, wo somit eine dritte Cache-Line weichen muss.

Exklusive Cache-Hierarchien erzeugen deutlich mehr Datenverkehr zwischen den Caches. Dafür können so viele Cache-Lines bereitgehalten werden wie die Summe von L1-, L2- und L3-Cache-Größe, während beim inklusiven Cache nur die L3-Cache-Größe maßgebend ist.

Im Hardwarebereich weisen vor allem moderne CPUs zwei oder drei Cacheebenen auf; sonstige Geräte besitzen meist nur eine Cacheebene. Im Softwarebereich wird meist nur eine Cacheebene benutzt, eine prominente Ausnahme bilden Webbrowser, die zwei Ebenen nutzen (Arbeitsspeicher und Festplattenlaufwerk).

Strategien

Cachegröße

Um den Nutzen des meist um mehrere Größenordnungen kleineren Caches im Vergleich zum Hintergrundspeicher zu maximieren, werden bei der Funktionsweise und Organisation eines Caches die Lokalitätseigenschaften der Zugriffsmuster ausgenutzt. Beobachtet man beispielsweise die Aktivität eines laufenden Programms auf einem Prozessor über ein kurzes Zeitintervall, so stellt man fest, dass wiederholt auf wenige und „immer dieselben“ kleine Speicherbereiche (z. B. Code innerhalb von Schleifen, Steuervariablen, lokale Variablen und Prozedurparameter) zugegriffen wird. Deshalb können bereits kleine Caches mit einigen Kilobytes sehr wirksam sein.

Verarbeitet ein Algorithmus jedoch ständig neue Daten (z. B. Streaming-Daten), kann ein Cache keine Beschleunigung durch Mehrfach-Zugriffe bewirken, allenfalls geringfügig durch read-ahead.

Lokalitätsausnutzung

Da Caches schnell sein sollen, verwendet man für sie meist eine andere (schnellere) Speichertechnologie als für den zu cachenden Speicher (zum Beispiel SRAM gegenüber DRAM, DRAM gegenüber Magnetscheibe usw.). Daher sind Caches meist wesentlich teurer in Bezug auf das Preis-Bit-Verhältnis, weshalb sie deutlich kleiner ausgelegt werden. Das führt dazu, dass ein Cache nicht alle Daten gleichzeitig vorrätig haben kann. Um das Problem zu lösen, welche Daten im Cache gehalten werden sollen, werden die Lokalitätseigenschaften der Zugriffe ausgenutzt:

Zeitliche (temporale) Lokalität: Da sich Zugriffe auf Daten wiederholen (z. B. beim Abarbeiten einer Programmschleife), ist es eher wahrscheinlich, dass auf Daten, auf die schon einmal zugegriffen wurde, auch noch ein weiteres Mal zugegriffen wird. Diese Daten sollten also bevorzugt im Cache gehalten werden. Dadurch ergibt sich auch die Notwendigkeit, alte Daten, die lange nicht benutzt wurden, aus dem Cache zu entfernen, um Platz für neuere zu machen. Diesen Vorgang nennt man „Verdrängung“.
Räumliche (spatiale) Lokalität: Da Programmcode und -daten nicht zufällig verstreut im Adressraum herumliegen, sondern „hintereinander“ und teilweise auch nur in bestimmten Adressbereichen angeordnet sind (Code-, Daten-, Stack-Segment, Heap usw.), ist es nach einem Zugriff auf eine bestimmte Adresse wahrscheinlich, dass auch auf eine „nahegelegene“ Adresse (sprich: Betrag der Differenz der beiden Adressen sehr klein) zugegriffen wird. Bei der Abarbeitung eines Programms wird z. B. ein Befehl nach dem anderen abgearbeitet, wobei diese „nacheinander“ im Speicher liegen (wenn kein Sprungbefehl dabei ist). Viele Datenstrukturen wie Arrays liegen ebenfalls „hintereinander“ im Speicher.

Wegen der räumlichen Lokalität speichern Caches nicht einzelne Bytes, sondern Datenblöcke („Cacheblock“ oder manchmal auch „Cache-Line“ genannt). Zusätzlich erleichtert das die Implementierung und verringert Speicheroverhead, da man nicht pro Datenbyte eine Adresse speichern muss, sondern nur für jeden Cacheblock. Die Wahl der Blockgröße ist ein wichtiger Designparameter für einen Cache, der die Leistung stark beeinflussen kann.

Organisation

Ein Cache besteht aus einer (meist) festen Anzahl Einträgen, jeder Eintrag besteht aus:

Cache-Line: Die eigentlichen gecacheten Daten (z. B. bei Festplatten 1 Block = 512 Bytes)
Adress-Tag: Die Adresse auf dem Hintergrundmedium, an der die gecacheten Daten beginnen
Zugriffs-/Verwaltungsinformationen: v. a. Angaben für die „Verdrängungsstrategie“ (s. u.)

Siehe auch unten #Einträge im Cache.

Cache-Line/Cache-Zeile

Eine Cache-Line ist die kleinste Verwaltungseinheit innerhalb des Caches von Prozessoren. Es handelt sich dabei um eine Kopie eines Speicherbereichs. Die Zugriffe vom Cache-Speicher zur CPU oder zum Hauptspeicher erfolgen somit in einem einzigen, blockweisen Transfer. Cache-Line-Größen liegen zwischen 16 Byte (Intel 80486) und 128 Byte (Intel-Sandy-Bridge-Mikroarchitektur). Die Minimallänge ergibt sich aus der Speicher-Busbreite multipliziert mit der Prefetch-Tiefe des Speichers.

Blocknummer-Tags statt Adress-Tags

Im Nachfolgenden wird davon ausgegangen, dass Cache-Lines immer nur von Adressen gelesen und geschrieben werden, deren Adresse durch die (Byte-)Länge der Cache-Line teilbar ist.

Beispiel

Eine Cache-Line sei 512 Bytes groß. Es sei festgelegt, dass Daten nur gelesen und geschrieben werden können mit Startadressen z. B. 0, 512, 1024, 1536, 2048, … Das Hintergrundmedium ist also aufgeteilt in Blöcke, die gerade so groß wie eine Cache-Line sind.

Dann muss in den Adress-Tags nicht mehr die gesamte (Start-)Adresse der Daten gespeichert werden, sondern nur noch, der wievielte Datenblock auf dem Hintergrundmedium gecachet ist. Durch die Wahl passender Zahlen (Zweierpotenzen) im Binärsystem lassen sich so die Tags platzsparender speichern; das beschleunigt das Prüfen, ob eine angefragte Adresse im Cache enthalten ist.

Block/Satz-Aufteilung der Tags

Vollassoziativer Cache

Die Blöcke (Cache-Lines) eines Caches können in so genannte Sätze zusammengefasst werden. Für eine bestimmte Adresse ist dann immer nur einer der Sätze zuständig. Innerhalb eines Satzes bedienen alle Blöcke also nur einen Teil aller vorhandenen Adressen. Im Folgenden stehe die Variable $m$ für die Gesamtanzahl der Cacheblöcke und $n$ für die Anzahl der Blöcke pro Satz, die so genannte Assoziativität. Dann besteht der Cache also aus ${\tfrac {m}{n}}$ Sätzen.

Organisation	Anzahl der Sätze	Assoziativität
DM	$m$	1
FA	1	$m$ ( $=n$ )
SA	${\tfrac {m}{n}}$	$n$

Je nachdem, wie stark man diese Aufteilung vornimmt, spricht man von einer der drei Cache-Organisationsarten:

direkt abgebildet (engl. direct mapped, kurz DM): $n=1$ , d. h. jeder Block repräsentiert einen eigenen Satz, es gibt also so viele Sätze wie Blöcke. Somit ist für eine gegebene Adresse exakt ein Cacheblock zuständig. Es existiert also eine direkte Abbildung zwischen Hintergrundspeicheradresse und Cacheblöcken, daher der Name. Bei einer Anfrage an einen solchen Cache muss man nur einen einzelnen Cacheblock auslesen (genauer gesagt den zugehörigen Tag überprüfen, s. u.), was den Hardwareaufwand für die Tag-Vergleicher minimiert. Im Gegenzug ist die Effizienz des Caches eingeschränkt, da möglicherweise freie Cacheblöcke vorhanden sind, die nicht genutzt werden, siehe Conflict Miss unten.
vollassoziativ (engl. fully associative, kurz FA): $n=m$ , d. h. es gibt nur einen Satz, der alle Blöcke beinhaltet. Somit kann jede Adresse in jedem Cacheblock gecachet werden. Bei einer Anfrage an den Cache ist es daher notwendig, alle Cache-Tags zu überprüfen. Da Caches möglichst schnell sein müssen, wird das parallel ausgeführt, was den notwendigen Hardwareaufwand an Tag-Vergleichern vergrößert. Der Vorteil ist aber, dass der Cache stets Daten aufnehmen kann, solange noch ein beliebiger Cacheblock frei ist.
satzassoziativ bzw. mengenassoziativ (engl. set associative, kurz SA): $n$ wird zwischen 2 und ${\tfrac {m}{2}}$ gewählt, d. h. die Cacheblöcke sind in Sätzen zu je $n$ Blöcken angeordnet. Hier werden also ${\tfrac {m}{n}}$ direkt abgebildete Caches vollassoziativ (also frei) angewählt. Diesen Cache nennt man dann n-fach satzassoziativ oder kurz n-fach assoziativ. Diese Cacheform stellt einen Kompromiss aus Hardwareaufwand und Effizienz des Caches dar: Gegenüber einem DM-Cache gewinnt man Effizienz, gegenüber einem FA-Cache spart man Hardware.

Die ersten beiden sind ein Spezialfall des satzassoziativen Caches. Der direkt abgebildete und der vollassoziative Cache lassen sich somit vom satzassoziativen Cache ableiten: n=1 führt zu einem direkt abgebildeten Cache, n=m zu einem vollassoziativen Cache.

Alternative Erklärung anhand eines Beispiels

Ein Cache habe 256 Einträge à 1 Byte, der Adressraum (Größe des Hintergrundmediums) sei 2¹⁶ = 65536 Bytes. Das Adress-Tag jedes Eintrags muss hier 16 Bit lang sein, da (wegen der Cache-Line-Größe 1) keine Verkürzung aufgrund Blocknummer-Tags besteht. Um zu prüfen, ob eine Adresse bereits im Cache vorliegt, muss also ein 16-Bit-Vergleich vorgenommen werden.

Vollassoziative Organisation: Jeder Eintrag (alle 256) kann jede beliebige Hintergrundadresse cachen. Um möglichst schnell herauszufinden, ob eine Adresse im Cache ist, werden 256 Vergleicher benötigt, die alle gleichzeitig befragt werden, ob die angefragte Adresse mit „ihrem“ Eintrags-Tag übereinstimmt.
128-fach assoziativ: Die 256 Einträge werden unterteilt in zwei Gruppen (2 „Sätze“): Die erste Gruppe (zu 128 Einträgen) kümmert sich um alle geradzahligen Adressen, die zweite Gruppe (die restlichen 128 Cache-Einträge) kümmert sich um die ungeradzahligen Adressen. Dadurch kann schon vor der eigentlichen Prüfung entschieden werden, welcher Satz (gerade oder ungerade) für die angefragte Adresse zuständig wäre, und es müssen nur noch 128 Vergleicher befragt werden. Außerdem können die Adress-Tags 1 Bit kürzer gewählt werden, da durch die Wahl des entsprechenden Satzes ja bekannt ist, ob das letzte Bit 0 (gerade) oder 1 (ungerade) ist.
Die Vergleicher können so angebracht werden, dass sie (umschaltbar) entweder ein „gerades“ Cache-Line-Tag mit der angefragten Adresse vergleichen, oder ein „ungerades“ Cache-Line-Tag. Damit können also (im Vergleich zu „vollassoziativ“) 128 Vergleicher eingespart werden.
64-fach assoziativ: Statt 2 Sätze („gerade“/„ungerade“) gibt es nun 4 Sätze, so dass die Sätze zuständig sind für Adressen:
1. Satz: zuständig für alle Adressen, für die gilt: (Adresse dividiert durch 4) ergibt Rest 0
2. Satz: zuständig für alle Adressen, für die gilt: (Adresse dividiert durch 4) ergibt Rest 1
3. Satz: zuständig für alle Adressen, für die gilt: (Adresse dividiert durch 4) ergibt Rest 2
4. Satz: zuständig für alle Adressen, für die gilt: (Adresse dividiert durch 4) ergibt Rest 3

Dadurch werden nur noch 64 Vergleicher benötigt, die Tags können um 2 Bit verkürzt werden. Nachteil: Wenn ein Programm nur jedes vierte Byte des Hintergrundmediums verwenden möchte, muss immer derselbe Satz das cachen – die anderen 3 Sätze liegen brach.

32-fach assoziativ: Es wird durch 8 dividiert, Rest 0..7 für die 8 Sätze
16-fach assoziativ: Es wird durch 16 dividiert, Rest 0..15 für die 16 Sätze
8-fach assoziativ: Es wird durch 32 dividiert, Rest 0..31 für die 32 Sätze
4-fach assoziativ: Es wird durch 64 dividiert, Rest 0..63 für die 64 Sätze
2-fach assoziativ: Es wird durch 128 dividiert, Rest 0..127 für die 128 Sätze
direct mapped / 1-fach assoziativ: Division durch 256, der Rest (0..255) ist direkt die Cache-Line-Nummer, die zuständig ist.

Beschleunigend wirkt, dass die Division/Restberechnung dadurch erledigt werden kann, dass einfach die entsprechenden hinteren $n$ Bit der gesuchten Adresse verwendet werden können – sie sind gerade der Divisionsrest.

Cache Hits und Misses

Den Vorgang, dass die Daten einer Anfrage an einen Cache in selbigem vorrätig sind, bezeichnet man als „Cache Hit“ (dt. Cachetreffer), den umgekehrten Fall als „Cache Miss“ (dt. „Cache-Verfehlen“).

Um quantitative Maßzahlen für die Bewertung der Effizienz eines Caches zu erhalten, definiert man zwei Größen:

Hit Rate: Die Anzahl der Anfragen, bei denen ein Cache Hit auftrat, geteilt durch die Anzahl der insgesamt an diesen Cache gestellten Anfragen. Wie man aus der Definition leicht sehen kann, liegt diese Größe zwischen Null und Eins. Eine Hit Rate von z. B. 0,7 (=70 %) bedeutet, dass bei 70 % aller Anfragen an den Cache dieser die Daten sofort liefern konnte und bei 30 % aller Anfragen passen musste.
Miss Rate: Diese ist analog zur Hit Rate als die Anzahl der Anfragen definiert, bei denen die Daten nicht im Cache vorhanden waren geteilt durch die Anzahl der gesamten Anfragen. Es gilt: Miss Rate = 1 − Hit Rate.

Drei Arten von Cache Misses werden unterschieden:

Capacity: Der Cache ist zu klein. Daten waren im Cache vorrätig, wurden aber wieder aus ihm entfernt. Erfolgt dann ein erneuter Zugriff auf diese Adresse, so wird dieser Miss als „Capacity Miss“ bezeichnet. Abhilfe schafft nur ein größerer Cache.
Conflict: Durch die satzassoziative Organisation (gilt somit auch für DM-Caches) ist es möglich, dass in einem Satz nicht mehr genug Platz ist, während in anderen Sätzen noch freie Cacheblocks vorhanden sind. Dann muss in dem überfüllten Satz ein Block entfernt werden, obwohl der Cache eigentlich noch Platz hat. Wird auf diesen entfernten Block erneut zugegriffen, so bezeichnet man diesen Cache Miss als „Conflict Miss“. Abhilfe schafft eine Erhöhung der Cacheblocks pro Satz – also eine Erhöhung der Assoziativität. Bei vollassoziativen Caches (welche nur einen Satz haben) gibt es prinzipbedingt keine Conflict Misses.
Compulsory: Beim erstmaligen Zugriff auf eine Adresse befinden sich normalerweise die dazugehörigen Daten noch nicht im Cache. Diesen Miss bezeichnet man als „Compulsory Miss“. Er ist nicht oder nur schwer zu verhindern. Moderne Prozessoren besitzen „Prefetcher“-Einheiten, die selbstständig spekulativ Daten in die Caches laden, wenn dort noch Platz ist. Damit soll die Anzahl der Compulsory Misses verringert werden.

Diese drei Typen bezeichnet man auch kurz als „Die drei C“. In Multiprozessorsystemen kann beim Einsatz eines Cache-Kohärenz-Protokolls vom Typ Write-Invalidate noch ein viertes „C“ hinzukommen, nämlich ein „Coherency Miss“: Wenn durch das Schreiben eines Prozessors in einen Cacheblock der gleiche Block im Cache eines zweiten Prozessors hinausgeworfen werden muss, so führt der Zugriff des zweiten Prozessors auf eine Adresse, die durch diesen entfernten Cacheblock abgedeckt war, zu einem Coherency Miss.

Arbeitsweise

Bei der Verwaltung des Caches ist es sinnvoll, immer nur die Blöcke im Cache zu halten, auf die auch häufig zugegriffen wird. Zu diesem Zweck gibt es verschiedene Ersetzungsstrategien. Eine häufig verwendete Variante ist dabei die LRU-Strategie (engl. least recently used), bei welcher immer der Block ausgetauscht wird, auf den am längsten nicht mehr zugegriffen wurde. Moderne Prozessoren (z. B. der AMD Athlon) implementieren meist eine Pseudo-LRU-Ersetzungsstrategie, die fast wie echtes LRU arbeitet, aber leichter in Hardware zu implementieren ist.

Verdrängungsstrategien

FIFO (First In First Out): Der jeweils älteste Eintrag wird verdrängt.
LRU (Least Recently Used): Der Eintrag, auf den am längsten nicht zugegriffen wurde, wird verdrängt.
LFU (Least Frequently Used): Der am seltensten gelesene Eintrag wird verdrängt. Dabei werden jedoch keine vollständigen Zeitstempel gespeichert, die eine relativ lange Integer-Zahl erfordern würden. Vielmehr werden wenige Bits verwendet (zwei sind häufig, aber auch nur eines ist möglich), um einen Cacheeintrag als mehr oder weniger häufig benutzt zu markieren. Die Aktualisierung der Bits erfolgt parallel zu einer Verdrängung.
Random: Ein zufälliger Eintrag wird verdrängt.
CLOCK: Daten werden im Cache in der Reihenfolge des Zugriffs abgelegt. Wenn auf ein Datum zugegriffen wird, wird für diesen Cacheblock ein Bit gesetzt. Bei einem Miss wird von vorne nach hinten nach dem ersten Datum ohne gesetztes Bit gesucht, dieses wird ersetzt. Bei allen dabei durchgegangenen Daten wird das Bit gelöscht. Es wird ebenfalls markiert, welches Datum zuletzt in den Cache geladen wurde. Von dort beginnt die Suche nach einem Datum, welches ersetzt werden kann.
Optimal: Das Verfahren von Laszlo Belady, bei dem derjenige Speicherbereich verdrängt wird, auf den am längsten nicht zugegriffen werden wird, ist optimal. Es ist allerdings nur dann anwendbar, wenn der komplette Programmablauf im Voraus bekannt ist (d. h. er ist ein so genanntes Offline-Verfahren, im Gegensatz zu FIFO und LRU, die Online-Verfahren sind). Der Programmablauf ist aber fast nie im Voraus bekannt; deshalb kann das optimale Verfahren in der Praxis nicht eingesetzt werden. Allerdings kann der optimale Algorithmus als Vergleich für andere Verfahren dienen.

Schreibstrategie

Bei einem Schreibzugriff auf einen Block, der im Cache vorhanden ist, gibt es prinzipiell zwei Möglichkeiten:

Zurückkopieren (write-back)

Beim Schreiben wird der zu schreibende Block nicht sofort in der nächsthöheren Speicherebene abgelegt, sondern zunächst im Cache. Dabei entsteht eine Inkonsistenz zwischen Cache und zu cachendem Speicher. Letzterer enthält somit veraltete Information. Erst wenn das Wort aus dem Cache verdrängt wird, wird es auch in die nächsthöhere Speicherebene geschrieben. Dazu bekommt jeder Cacheblock ein sogenanntes Dirty Bit, das anzeigt, ob der Block beim Ersetzen zurückkopiert werden muss. Das führt bei Speicherzugriff durch andere Prozessoren oder DMA-Geräte zu Problemen, weil diese veraltete Informationen lesen würden. Abhilfe schaffen hier Cache-Kohärenz-Protokolle wie z. B. MESI für UMA-Systeme.

Durchgängiges Schreiben (write-through)

Der zu schreibende Block wird sofort in der nächsthöheren Speicherebene abgelegt. Damit ist die Konsistenz gesichert. Damit der Prozessor nicht jedes Mal warten muss, bis der Block in der nächsthöheren Speicherebene (die ja langsamer als der Cache ist) abgelegt ist, benutzt man einen Pufferspeicher (write buffer). Wenn dieser voll läuft, muss der Prozessor jedoch anhalten und warten.

Analog zu Obigem gibt es bei einem Schreibzugriff auf einen Block, der nicht im Cache vorhanden ist, prinzipiell ebenso zwei Möglichkeiten:

write-allocate

Wie bei einem normalen Cache Miss wird der Block aus der nächsthöheren Speicherebene geholt. Die entsprechenden Bytes, die durch den Schreibzugriff geändert wurden, werden danach im gerade frisch eingetroffenen Block überschrieben.

non-write-allocate

Es wird am Cache vorbei in die nächsthöhere Speicherebene geschrieben, ohne dass der dazugehörige Block in den Cache geladen wird. Das kann für manche Anwendungen Vorteile bringen, bei denen viele geschriebene Daten nie wieder gelesen werden. Durch die Verwendung von non-write-allocate verhindert man das Verdrängen von anderen, möglicherweise wichtigen Blöcken und reduziert somit die Miss Rate.

Einige Befehlssätze enthalten Befehle, die es dem Programmierer ermöglichen, explizit anzugeben, ob zu schreibende Daten am Cache vorbeizuschreiben sind.

Normalerweise wird entweder die Kombination write-back mit write-allocate oder write-through mit non-write-allocate verwendet. Die erste Kombination hat den Vorteil, dass aufeinander folgende Schreibzugriffe auf denselben Block (Lokalitätsprinzip) komplett im Cache abgewickelt werden (bis auf den ersten Miss). Dies gibt im zweiten Fall keinen Vorteil, da sowieso jeder Schreibzugriff zum Hauptspeicher muss, weshalb die Kombination write-through mit write-allocate eher unüblich ist.^[4]

Cache Flush

Ein Cache Flush („Pufferspeicher-Leerung“) bewirkt das komplette Zurückschreiben des Cacheinhaltes in den Hintergrundspeicher. Dabei bleibt der Cacheinhalt meist unangetastet. Ein solches Vorgehen ist nötig, um die Konsistenz zwischen Cache und Hintergrundspeicher wiederherzustellen. Notwendig ist das zum Beispiel immer dann, wenn Daten aus dem Hauptspeicher von externen Geräten benötigt werden, unter anderem bei Multiprozessor-Kommunikation oder bei der Übergabe eines als Ausgabepuffer benutzten Teils des Hauptspeichers an den DMA-Controller.

Sonstiges

Einträge im Cache

Für jeden Cacheblock wird im Cache folgendes gespeichert:

die eigentlichen Daten
der Tag (ein Teil der Adresse)
mehrere Statusbits wie:
- modified bzw. dirty: Gibt an, ob dieser Cacheblock geändert wurde (nur beim Write-Back-Cache).
- diverse Statusbits je nach Cache-Kohärenz-Protokoll, z. B. je ein Bit für:
  - owner: Äquivalent zu „modified & shared“. Gibt an, dass der Block geändert wurde und in anderen Caches vorhanden ist. Der Owner ist dafür verantwortlich, den Hauptspeicher zu aktualisieren, wenn er den Block aus seinem Cache entfernt. Derjenige Prozessor, der zuletzt auf den Cacheblock schreibt, wird neuer Owner.
  - exclusive: Gibt an, dass der Block nicht geändert wurde und in keinem anderen Cache vorhanden ist.
  - shared: Hat teilweise unterschiedliche Bedeutungen: Bei MESI gibt das an, dass der Block nicht geändert wurde, aber auch in Caches anderer Prozessoren vorhanden ist (dort ebenso unverändert). Bei MOESI bedeutet es nur, dass der Block in anderen Prozessorcaches vorhanden ist. Hier ist auch erlaubt, dass der Block verändert wurde, also inkonsistent zum Hauptspeicher ist. In diesem Fall gibt es aber einen „Owner“ (s. o.), der für das Aktualisieren des Hauptspeichers verantwortlich ist.
- invalid: Zeigt an, ob der Block frei (also mit ungültigen Daten befüllt) oder belegt (also mit gültigen Daten befüllt) ist.

Heiße und kalte Caches

Ein Cache ist „heiß“, wenn er optimal arbeitet, also gefüllt ist und nur wenige Cache Misses hat; ist das nicht der Fall, gilt der Cache als „kalt“. Ein Cache ist nach Inbetriebnahme zunächst kalt, da er noch keine Daten enthält und häufig zeitraubend Daten nachladen muss, und wärmt sich dann zunehmend auf, da die zwischengelagerten Daten immer mehr den angeforderten entsprechen und weniger Nachladen erforderlich ist. Im Idealzustand werden Datenzugriffe fast ausschließlich aus dem Cache bedient und das Nachladen kann vernachlässigt werden.

Beispiele

Prozessor-Cache

Bei CPUs kann der Cache direkt im Prozessor integriert oder extern auf der Hauptplatine (früher weiter verbreitet, heute eher untypisch) platziert sein. Oftmals gibt es mehrere Ebenen (Level), die aufeinander aufbauen. Kleinere Level sind dabei typischerweise schneller, haben aber aus Kostengründen eine kleinere Größe. Je nach Ort des Caches arbeitet dieser mit unterschiedlichen Taktfrequenzen: Der L1 (Level 1, am nächsten an der CPU) ist fast immer direkt im Prozessor (d. h. auf dem Die) integriert und arbeitet daher mit dem vollen Prozessortakt – also u. U. mehrere Gigahertz. Ein externer Cache hingegen wird oftmals nur mit einigen hundert Megahertz getaktet.

Aktuelle Prozessoren (z. B. AMD Phenom II, Intel-Core-i-Serie, IBM Power 7) besitzen überwiegend drei Cache-Level: L1, L2 und L3. Gängige Größen für L1-Caches sind 4 bis 256 KiB pro Prozessorkern, der L2-Cache ist 64 KiB bis 512 KiB (meist ebenfalls pro Kern), der L3-Cache 2 bis 32 MiB (für alle Kerne gemeinsam). Bei kostengünstigeren Versionen wird mitunter der L3-Cache weggelassen oder abgeschaltet, dafür ist der L2-Cache teilweise etwas vergrößert. Prozessorcache als Extra-Chip auf dem Mainboard wird heute nicht mehr gebaut, als Extra-Die im selben Chip-Gehäuse (siehe Multi Chip Package) nur noch selten.

In jedem Fall ist eine Protokollierung erforderlich, um die Kohärenz der Daten (z. B. zwischen Caches und Hauptspeicher) sicherzustellen. Dazu dienen Flags, die einen Speicherbereich (typischerweise eine ganze line von 512 Byte) als „dirty“, also geändert, markieren (s. o. bei Schreibstrategie). Das Problem verschärft sich bei mehreren Cachelevels und mehreren Prozessoren oder Prozessorkernen.

Die Cachekonsistenz ist sowohl bei mehreren aktiven Geräten auf dem Datenbus, als auch bei mehreren zusammengeschalteten Prozessoren (Multiprozessorsysteme) zu beachten.

Bei Mehrprozessorsystemen unterscheidet man u. a. zwischen SIMD- und MIMD-Strukturen (Single/Multiple Instruction – Multiple Data). Bei MIMD-Systemen ist die Wahrscheinlichkeit hoch, dass verschiedene Prozessoren auf verschiedene Speicherbereiche zugreifen, bei SIMD dagegen kleiner. Danach lässt sich die Cache-Konfiguration einstellen.

Moderne Prozessoren haben getrennte L1-Caches für Programme und Daten (Lese- und Schreibcache), teilweise ist das auch noch beim L2 der Fall (Montecito). Man spricht hier von einer Harvard-Cachearchitektur. Das hat den Vorteil, dass man für die unterschiedlichen Zugriffsmuster für das Laden von Programmcode und Daten unterschiedliche Cachedesigns verbauen kann. Außerdem kann man bei getrennten Caches diese räumlich besser zu den jeweiligen Einheiten auf dem Prozessor-Die platzieren und damit die kritischen Pfade beim Prozessorlayout verkürzen. Des Weiteren können Instruktionen und Daten gleichzeitig gelesen/geschrieben werden, wodurch der Von-Neumann-Flaschenhals weiter verringert werden kann. Ein Nachteil ist, dass selbstmodifizierender Code nicht sehr gut auf modernen Prozessoren läuft. Allerdings wird diese Technik aus Sicherheitsgründen sowie weil sie nur schwer verständlich ist, schwierig zu überprüfen ist und daher eine schlechte Wartbarkeit besitzt, heute ohnehin nur noch sehr selten verwendet.

Laufwerks-Cache

Bei Festplatten befindet sich der Cache auf der Steuerplatine (siehe Festplattencache) oder einer extra Platine, dem Festplattenkontroller.

Die Größe beträgt bei aktuellen Festplatten je nach dem vom Hersteller vorgesehenen Einsatzzweck der Festplatte zwischen 8 und 64 MB (Stand 2012).

Die meisten optischen Laufwerke besitzen Caches, um die oftmals im dreistelligen Millisekundenbereich liegenden Zugriffszeiten und Schwankungen im Datenstrom (z. B. durch Synchronisierungsprobleme) aufzufangen.

Software-Caches

Caches können auch bei Software genutzt werden, dabei ist dasselbe Prinzip wie bei der Hardwareimplementierung gemeint: Daten werden für einen schnelleren Zugriff auf ein schnelleres Medium zwischengespeichert.

Beispiele:

Festplattencache (vom Betriebssystem verwaltet): Festplatte → Hauptspeicher
Anwendungsdaten (Memoisation): Rechnung → Hauptspeicher
Browser-Cache: Netz → (Festplatte / Arbeitsspeicher)
Webserver: Datenbank → HTML-Datei (HTTP Caching)

Software-Caches, welche die Festplatte als schnelleres Medium verwenden, werden meist in Form von temporären Dateien angelegt.

Man spricht auch von Caching, wenn ein Betriebssystem gewisse Ressourcen – wie z. B. Funktionsbibliotheken oder Schriftarten – vorerst im Arbeitsspeicher belässt, obwohl sie nach Ende ihrer Benutzung nicht mehr gebraucht werden. So lange kein Speichermangel herrscht, können sie im Arbeitsspeicher verbleiben, um dann ohne Nachladen von der Festplatte sofort zur Verfügung zu stehen, wenn sie wieder gebraucht werden. Wenn allerdings die Speicherverwaltung des Betriebssystems einen Speichermangel feststellt, werden diese Ressourcen als erste gelöscht.

Suchmaschinen-Cache

Der Suchmaschinen-Cache ist der Lesecache einer Suchmaschine. Eine Suchmaschine besitzt drei Kernkomponenten:

Ein Webcrawler durchsucht das WWW nach neuen oder veränderten Webseiten und lädt sie (zusätzlich) in
den Suchmaschinen-Cache, über den regelmäßig verschiedene Indizes erstellt werden. Über diese Indizes sucht
ein Suchalgorithmus, der gemäß einer Benutzeranfrage passende Webseiten finden soll.

Die Inhalte aller Webseiten, die die Suchmaschine als Basisdaten für Benutzeranfragen berücksichtigt, werden im Suchmaschinen-Cache zwischengespeichert. Die Server einer Suchmaschine können nicht für jede Abfrage jede Webseite in Echtzeit auf die aktuellsten Inhalte durchsuchen; stattdessen wird in einem Index über dem Cache gesucht.

Im Allgemeinen kann ein Webseiten-Betreiber Änderungen seiner Webseiten an die Suchmaschine melden, dann fragt der Webcrawler die Seite baldmöglichst erneut ab; ansonsten prüft der Webcrawler jede Webseite in regelmäßigen Abständen – die Cache-Inhalte können also veraltet sein. Eine Webseite kann dem Crawler einen Hinweis geben, wie häufig sie sich im Allgemeinen ändert. Suchmaschinen gehen mit dieser Information mitunter verschieden um.

Die in Deutschland verbreitetste Suchmaschine ist Google; deren Cache-, Indizier- und Suchstrategien wird daher besonders hohes Interesse zuteil. Die Webcrawler-Frequenz, mit der Webseiten geprüft werden, liegt bei Google bei den meisten Webseiten zwischen einer und vier Wochen („[...] Inhalt wird in der Regel alle 7 Tage aktualisiert.“^[5]). Gemeldete Webseiten untersucht der sogenannte Googlebot.

Weblinks

Wiktionary: Cache – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

↑ Cache auf www.duden.de
↑ Übersetzung: cache. Éditions Larousse. Abgerufen am 18. Februar 2012.
↑ Definition for cache. University of Oxford. Abgerufen am 18. Februar 2012.
↑ John Hennessy, David Patterson: Computer Architecture. A Quantitative Approach. 4th Edition. Morgan Kaufmann Publishers, ISBN 978-0-12-370490-0 (engl.), S. C-11–C-12.
↑ „Ein kurzer Einblick in die Funktionalität des Google-Caches“ (Mit Suchfunktion)

Dieser Artikel basiert ursprünglich auf dem Artikel Cache aus der freien Enzyklopädie Wikipedia und steht unter der Doppellizenz GNU-Lizenz für freie Dokumentation und Creative Commons CC-BY-SA 3.0 Unported. In der Wikipedia ist eine Liste der ursprünglichen Wikipedia-Autoren verfügbar.

[1] Cache auf www.duden.de

[2] Übersetzung: cache. Éditions Larousse. Abgerufen am 18. Februar 2012.

[3] Definition for cache. University of Oxford. Abgerufen am 18. Februar 2012.

[4] John Hennessy, David Patterson: Computer Architecture. A Quantitative Approach. 4th Edition. Morgan Kaufmann Publishers, ISBN 978-0-12-370490-0 (engl.), S. C-11–C-12.

[google_cache-5] „Ein kurzer Einblick in die Funktionalität des Google-Caches“ (Mit Suchfunktion)

[1]

[2]

[3]

[4]

[5]