Tier 1 bis 4: Die vier Tier-Klassen des Rechenzentrums (2024)

ZurKlassifizierungvon Rechenzentren wurde die Tier-Topologie Ende der 1990er Jahre vom Uptime Institut mit Sitz in den USA, weltweit als Standard eingeführt. Jedes “Tier” (dt. Stufe oder Level) steht für einen bestimmtenRang, den das jeweilige Rechenzentrum bzw. dessen Subsysteme erfüllt.Es ist deram häufigsten, teilweise auch missbräuchlich, verwendete “Standard”, umden Aufbau und die Verfügbarkeit eines Rechenzentrums zu beschreiben.

Die Tier-Topologiesieht insgesamt vierStufen(Tier1bis Tier 4) vor, wobei Tier 1 die am wenigsten zuverlässige Umgebung istund Tier4 als “hochverfügbar” eingestuft wird.

Was bedeutet “Hochverfügbarkeit”?

“Der Begriff „Verfügbarkeit“ bezeichnet die Wahrscheinlichkeit, dass ein System zu einem gegebenen Zeitpunkt tatsächlich wie geplant benutzt werden kann.”
(Leitfaden “Betriebssichere Rechenzentren”, Bitcom, Dezember 2013)

Die Verfügbarkeit wird dabei als Verhältnis aus Ausfallzeit (Downtime) undGesamtzeit eines Systems bemessen:Verfügbarkeit = Uptime / (Downtime + Uptime)

oder

Verfügbarkeit (%) = 1 – Ausfallzeit / (Produktionszeit + Ausfallzeit)

[mk_blockquote style=”quote-style” font_family=”none” text_size=”12″ align=”left” padding=”25″]”Hochverfügbarkeit (abgekürzt auchHA, abgeleitet von engl.high availability) bezeichnet also die Fähigkeit eines Systems, bei Ausfall einer seiner Komponenten einen uneingeschränkten Betrieb zu gewährleisten.”

Andrea Held:Oracle 10g Hochverfügbarkeit

[/mk_blockquote]

Für “Hochverfügbarkeit” muss die Wahrscheinlichkeit, dass ein System verfügbar ist, über 99,99% liegen. Die jährliche Ausfallzeit muss demnach im Minutenbereich liegen.

Vier-Tier-Topologie zur Klassifizierung von Rechenzentren

Tier I

Der Tier 1 Standard beschreibt einen Basis-Infrastrukturaufbau, der keine Redundanz umfasst und daher nur für nicht-kritische Workloads (Lasten) geeignet ist. Merkmale sind einfach vorhandene Komponenten zur Versorgung und Verteilung der Lasten. In diesem Aufbaumodell sind Wartungen nur geplant und bei komplett unterbrochenem Betrieb der Systeme möglich. Zudem bestehtein großes Ausfallrisiko, denn Fehler können durch technische Komponenten und durch menschliches Versagen auf allen Anschluss- und Versorgungs-Ebenen auftreten.

Tier II

In einemTier 2-Rechenzentrumbesteht Redundanz durch redundant vorhandene Leistungs- und Kühlungskomponenten (“N+1”-Redundanz), wie beispielsweise ein zusätzliches USV-Modul, weitere Kühl-Einheiten, Pumpen oder Generatoren. Der Verteilungspfad für alle Lasten ist jedoch weiterhineinfach ausgelegt, weshalb sich die Verfügbarkeit zwar erhöht abergegenüber demfolgenden Tier 3 Level deutlich schwächer ausfällt. In diesem Aufbau, der möglicherweise als Übergangslösung gedacht ist, können geplante Maßnahmen und ungeplante Ereignisse die laufenden Systeme immer noch stark beeinträchtigen oder zum Komplett-Ausfall führen.

Tier III

Tier 3 ist der am meisten verwendete Standard.Ein wesentlicher Unterschied zu Tier2ist, dass in einem Tier 3 Rechenzentrum“durchgehende Wartung” möglich ist. Wartungen einzelner Komponenten können planbar, ohne Unterbrechung im laufenden Betrieb vorgenommen werden. Für die Versorgung und Verteilung der Last besteht dafür jeweils “N+1”-Redundanz (Lesen Sie dazu auch unseren Blog-Artikel “Wie funktioniert die redundante Stromversorgung im Rechenzentrum?”). Die maximale Ausfallzeit (im Mittel über 5 Jahre) reduziert sich dadurch auf 1,6h pro Jahr.

Tier IV

Beim derzeitigen Maximal-Level Tier 4 kommen fehlertolerante Infrastruktur-Elemente hinzu. In diesem Aufbau verfügt jedes Systemelement über eigene Automatismen, die bei einem Fehler oder Ausfall einzelnerKomponenten automatische Reaktions- und Abwehrmechanismen starten, die diesen entgegenwirken. Alle Kapazitäts- und Versorgungselementesind zudem durchgängigredundant,und technisch optimal aufeinander abgestimmt angelegt. Komplementäre Systeme und Versorgungspfade werden physisch voneinander isoliert betrieben, um bei Ausfällen “Ansteckungsgefahren” zu vermeiden. Ein Tier 4-Datacenter gilt mit einer durchnschnittlichen Verfügbarkeit von 99,995% im Jahr als “hochverfügbar”, ist im Aufbau aber sehr komplex und dementsprechend teuer in der Umsetzung.

Fehlertolerante Systeme

Fehlertolerante Systeme erreichen eine besonders hohe Verfügbarkeit, weil sie mithilfe von intelligenter Software auf nahezu alle erdenklichen Fehlerursachen reagieren können. Zusätzlich eliminiert der Aufbau fehlertoleranter Systeme Ursachen für Single Points of Failure (SPOF).Ein SPOF bezeichnet eine einzelne Komponente, die für die korrekte und zuverlässige Funktionsfähigkeit des Gesamtsystems zwingend erforderlich ist. Dies schließt auch das Design des Netzwerkes und der Speichertechnik mit ein: So kann ein ausgefallener Netzwerkswitch bereits dazu führen, dass der Service des Gesamtnetzwerks nicht mehr verfügbar ist.

Durch die Herstellung von Redundanzund automatische Lastenverteilung können SPOF-Risikeneingedämmt werden. Dafür werden die einzelnen Hardware- und Netzwerk-Komponenten wie Router und Switche des selben Typsmehrfachangelegt. Im Falle eines Ausfalls kann die redundante Komponente die Aufgabe der Anderen übernehmen. Bei besonders hohen Verfügbarkeitsanforderungen kann auch die gesamte Rechnerhardware in Form eines Standby-Systems gespiegelt werden.

Es ist jedoch zu beachten, dass eine hohe Verfügbarkeit nicht nurauf physischer Infrastruktur-Ebenebestimmt wird. Dieorganisatorischen und ausführenden Strukturen sind für einen sicheren Betrieb der Infrastruktur nicht weniger entscheidend. Dazu zählen beispielsweise:

geschultes Servicepersonal
Bereithalten von Ersatzteilen
Abschluss von Wartungsverträgen
Instruktionen über das Verhalten im Fehler- oder Notfall
schnelle, exakte Kommunikationsführung
nachvollziehbare Protokollierung der Ereignisse

Die wichtigsten, zertifizierungsfähigenNormenauf organisatorischer Ebene sind ISO/IEC 27001 (Norm für Information Security Management Systems, kurz ISMS) mit Anlehnung an IT-Grundschutz sowie ISO/IEC 20000 (Norm für IT Service Management, kurz ITSM).Für die Standards ISO/IEC 27001 und ISO/IEC 20000, ist ergänzend auch jeweils ein Leitfaden mit Best Practice Anweisungen vorhanden. Gemeint sind ISO/IEC 27002 und ITIL (IT Infrastructure Library).

EmpfohleneLinks:

Wolfgang Heinhaus, Ulrike Ostler (2017, 30. Juni) Was sichert Rechenzentren von Tier I bis IV? URL: https://www.datacenter-insider.de/was-sichert-rechenzentren-von-tier-i-bis-iv-a-619349/

Andrea Held (2015, 6. Oktober) Hochverfügbarkeit und Downtime: Eine Einführung URL:https://www.informatik-aktuell.de/betrieb/verfuegbarkeit/hochverfuegbarkeit-und-downtime-eine-einfuehrung.html

Holger Skurk (2013, 13. Dezember) “Betriebssicheres Rechenzentrum” URL: https://www.bitkom.org/Bitkom/Publikationen/Betriebssicheres-Rechenzentrum.html

Uptime Institut (2018, Januar) Tier Standard: Topology, Uptime Institute URL: https://uptimeinstitute.com/uptime_assets/d60e4b92ffa912e586a68d76617c4f12c3700681477064382a03207927a1ee96-00001A.pdf