Cluster - Einführung V1.8 (c) Stor IT Back 2025
Ein Cluster soll die Verfügbarkeit und/oder Skalierbarkeit einer Anwendung erhöhen. Daraus lassen sich zwei Arten von Clustern ableiten, die zwar ähnlich aufgebaut sind, jedoch auch wichtige Unterschiede besitzen. Dies ist einmal der reine Hochverfügbarkeits-Cluster (HA), der nur die Verfügbarkeit einer Anwendung erhöhen soll. Die zweite Art erhöht auch die Verfügbarkeit, aber zusätzlich wird die Skalierbarkeit verbessert. Dies hört sich nach starken Vorteilen des zweiten Clustertyps an, jedoch ist er nicht für jede Anwendung geeignet.
Dieser Cluster erhöht die Verfügbarkeit der Anwendung durch eine konsequente Vermeidung eines Single-Point-of-Failure im Gesamtsystem. Dies wird auf der Hardware-Seite durch eine Verdoppelung der Komponenten erreicht. Sollte ein Server oder ein Storage-System ausfallen, dann übernimmt der Partner die Arbeit. Konsequenter Weise sollten auch alle Komponenten innerhalb von Server und Storage-System redundant ausgelegt werden. So wird durch diese einfachen und kostengünstigen Maßnahmen die Grundverfügbarkeit jedes Einzelsystems deutlich erhöht.
Eine Anwendung kann in diesem Fall nur auf einem der beiden Rechner laufen.
Fällt dieser Rechner aus, so übernimmt der andere sämtliche Funktionen, das
heißt die IP-Adresse, die Daten und die Anwendung. Ist nur eine Anwendung
vorhanden, so läuft der jeweils andere Rechner ohne eigentliche Funktion (= Anwendung für die User) vor
sich hin. In diesem Falle kann der Cluster unsymmetrisch aufgebaut werden, der
normale Produktionsrechner als großer und leistungsfähiger Server, die Ersatzmaschine
als Minimalsystem. Eine mögliche Aufgabe für das "Ersatzsystem" ist die Testumgebung.
Diese kann im Fehlerfalle deaktiviert werden und das Produktionssystem darf
die volle Rechnerkapazität nutzen.
Die Auslegung des Storage-Systems bzw. der Storage-Systeme ist für diesen
Cluster recht einfach. Es muss nur möglich sein, dass zwei Rechner gleichzeitig
auf den Storage zugreifen können, es muss also mindestens zwei Host-Eingänge
besitzen. Dies ist schon mit "einfachen" SAS-RAID-Systemen möglich.
Für das Betriebssystem des Servers muss ein Software-RAID-1 verfügbar
sein, welches durch den Cluster unterstützt wird. Oder die beiden Storage-Systeme replizieren ihre Daten untereinander, so dass beide Storages immer
exakt die gleichen Daten haben.
Ist dies nicht möglich,
so kann nur mit einem Storage-System gearbeitet werden. In diesem Fall muss
eine Storage-Hardware den Verfügbarkeitsanforderungen genügen. Eine
Ergänzung kann dann auch die zusätzliche Replikation der Daten sein.
Sollte eine Anwendung
auf einem einzelnen Server nicht mehr die geforderten Antwortzeiten erreichen, so kann
erst einmal der Server aufgerüstet werden. Dies kommt schnell an Grenzen. Effektiver
ist es da schon, wenn die gleiche Anwendung mit den gleichen Daten auch noch
auf einem zweiten Rechner zur gleichen Zeit laufen könnte.
Und dies ermöglicht der Lastausgleichs-Cluster. Die Anwendung wird auf dem zweiten Server gestartet
und greift auch auf die gleichen Daten zu. Aber dort liegt auch das Problem.
Die Anwendung muss den Zugriff von mehreren Rechnern auf seine Datenbasis erlauben.
Dies funktioniert sehr gut bei Webservern, bei Datenbanken kommen Probleme auf (da gibt es aber Lösungen, z.B. Oracle RAC),
die meistens auf anderen Wegen gelöst werden müssen. Soll zusätzlich die Verfügbarkeit
gesteigert werden, so muss auf die Auslegung des Lasterverteilers und des NAS
Storage besonderen Wert gelegt werden. Hier sollten dann HA-Cluster eingesetzt
werden.

Wird der NAS Storage durch ein Fibre Channel Storage ersetzt, so müssen spezielle Filesysteme eingesetzt werden (SAN Filesysteme oder Cluster Filesysteme), die einen schreibenden Zugriff von verschiedenen Rechnern auf ein Filesystem ermöglichen. Mit dieser Konfiguration können auch Datenbanken auf diesem Cluster betrieben werden. Die Hauptanwendung ist aber meist die Webanwendung oder Videostreaming. Immer wenn hohe Datenraten benötigt werden, wird auf ein SAN- bzw. Fibre Channel-Storage zurückgegriffen.
Gerade die Server Virtualisierung benötigt eine hohe Verfügbarkeit, ansonsten fallen ja alle virtuellen
Maschinen aus, die auf dieser Hardware laufen. Dort wird fast in jeder
Umgebung ein Cluster eingerichtet, egal ob mit VMware vSphere, Hyper-V oder KVM/Proxmox. Der Cluster ist
bei diesen Lösungen der Standard und nicht etwas Besonderes.
Auch die Einrichtung ist extrem einfach. Als Beispiel
bei VMware muss man nur mindestens 2 ESXi Server dem vCenter Server hinzufügen und dann für den definierten
Cluster die Konfiguration starten. Dort werden einige Parameter zur Überwachung und zum Neustart von virtuellen Maschinen
hinterlegt und die eigentliche Konfiguration übernimmt der vCenter dann auf den ESXi. Die eigentliche Funktion im
Cluster von VMware ist HA. Diese Funktion überwacht ganz nach dem Motto eines Clusters die physikalischen Maschinen (ESXi) und die
virtuellen Maschinen (zum Beispiel über den internen Heartbeat, Management-LAN). Bei einer Störung werden die virtuellen Maschinen neu gestartet oder
auf eine andere physikalische Maschine umgezogen.

Sollte also zum Beispiel ein ESXi im Verbund mit einem oder zwei anderen ausfallen, so werden nach einer kurzen Zeit (die anderen ESXi müssen den
Ausfall ja erst einmal feststellen), die virtuellen Maschinen neu auf den beiden anderen ESXi gestartet. Also einen kurzen Ausfall muss man in diesem
Fall hinnehmen, aber ein manueller Eingriff ist nicht notwendig.
Hinweis: Sollte schon ein kurzer Ausfall zu lang sein, dann bietet VMware die Funktion "Fault Tolerance" an. Dort laufen die virtuellen Maschinen
auf zwei getrennten ESXi, so dass beim Ausfall die andere VM (ist ja die gleiche) sofort antworten kann.
Benötigt wird im Fall eines Clusters für die Server-Virtualisierung das Shared Storages. Dieses ist in jedem Fall notwendig, damit jeder Server auf
die gemeinsamen Daten zugreifen kann. Neben einem Shared Storage ist auch das VSAN von VMware oder die OpenSource Lösung Ceph möglich. Diese Produkte erstellen
ein verteiltes Storage.
Eine typische Anwendung für einen HA-Cluster ist ein NAS-Server. Liegen die wichtigen Firmendaten auf dem NAS-System und sind längere Ausfallzeiten nicht akzeptabel, so muss das NAS-System hochverfügbar ausgelegt werden. Es entsteht ein typischer HA-Cluster, es sind mehrere NAS-Köpfe (Server) vorhanden, die auf gespiegelte Daten zugreifen. Ein weiterer Ausbau der Verfügbarkeit liegt in der räumlichen Trennung der Systeme in unterschiedliche Brandabschnitte oder Gebäude. Solche Verfahren bieten sogar Schutz gegen Brand und Wasserschaden. Abstände von 500 Metern lassen sich ohne Probleme und sehr kostengünstig mit Fibre-Channel-Systemen erreichen. Auch bei Performanceproblemen gibt es eine Lösung im NAS-Bereich. Mehrere NAS-Server greifen auf die gleiche Datenbasis zu. Hierfür wird jedoch eine spezielle Software benötigt, die den konkurrierenden Schreibzugriff ermöglicht. In diesem Bereich bieten wir individuelle Lösungen an, setzen Sie sich mit uns in Verbindung.
Für viele Anwendungen wird ein hochverfügbarer Storage benötigt. Meist müssen die beiden Knoten auch in unterschiedlichen Brandabschnitten oder Gebäuden untergebracht werden. Die Server werden dann mit beiden Storage-Systemen (= den beiden Knoten) verbunden und können sowohl auf die Daten über den Knoten 1, wie auch über den Knoten 2 zugreifen. Sollte dann ein Knoten ausfallen, dann können alle Server weiterhin auf die Daten zugreifen.

Diese Storage-Cluster gibt es in zwei Varianten. Die gebräuchlichste ist
der Active-Passive-Cluster, dies bedeutet einer der beiden Knoten ist aktiv
und als einziger stellt er Speicherplatz für die Server zur Verfügung.
Der aktive Knoten repliziert dann alle Änderungen auf den passiven Knoten.
Sollte der aktive Knoten ausfallen, so über nimmt der passive Knoten alle
Aufgaben. Ist der defekte Knoten wieder aktiv, so repliziert der laufende Knoten
alle Änderungen wieder zurück und der ehemals defekte Knoten kann
wieder der aktive Knoten werden. Die zweite Variante der Active-Active Cluster
ist wesentlich aufwendiger. Beide Knoten sind aktiv und beide Knoten stellen
Speicherplatz zur Verfügung. Eine Anfrage der Server kann an beide Knoten
gehen, das bedeutet die Storage Cluster Knoten müssen sich bei jedem I/O
abstimmen. Aber beide Knoten können I/Os beantworten, die Performance ist
größer als bei Active-Passive-Cluster.
Im obigen Beispiel sind als Backend zwei Storage Systeme vorhanden, die ihre
Daten replizieren und im Fehlerfalle einen Failover bieten. Damit können
die beiden Server im Beispiel auch bei Ausfall eines Storage-Systems weiter
auf die Daten zugreifen. Die beiden Server sind auch wieder ein Cluster, in
diesem Beispiel ein VMware vSphere Cluster. Der Storage-Cluster erhöht
nur die Verfügbarkeit, die Performance kann so nicht erhöht werden
(Active-Passiv), da immer nur ein System aktiv ist. Der Server-Cluster, also
die VMware-Umgebung ist sowohl ein HA-Cluster, wie auch ein Cluster zur Steigerung
der Performance, da beide Server zu gleichen Zeit aktiv sein können.
VMware hat für diesen Fall ein Cluster-Filesystem auf den ESXi-Servern
laufen, das sogenannte VMFS Filesystem. Dank diesem Filesystem können mehrere
Server zur gleichen Zeit schreibend auf eine Datenbasis zugreifen. Dies ermöglicht
dann auch die Features wie vMotion und VMware HA.
Was ist ein Cluster in der IT?
Ein Cluster ist ein Verbund mehrerer Server, die gemeinsam eine Aufgabe erfüllen und sich gegenseitig unterstützen. Dadurch entsteht eine Umgebung, die leistungsfähiger und ausfallsicherer ist als ein einzelner Server. In Virtualisierungsumgebungen sorgt ein Cluster beispielsweise dafür, dass virtuelle Maschinen (VMs) bei Problemen automatisch auf andere Knoten verschoben werden. Das Ziel ist höhere Verfügbarkeit, Skalierbarkeit und Stabilität.
Worin besteht der Unterschied zwischen Hochverfügbarkeit (HA) und Clustering?
Clustering beschreibt den Zusammenschluss mehrerer Server zu einer gemeinsamen Einheit. Hochverfügbarkeit ist eine Funktion, die innerhalb eines Clusters dafür sorgt, dass Dienste auch während Ausfällen weiterlaufen. Ein Cluster kann existieren, ohne HA anzubieten (z. B. nur für Lastverteilung). HA hingegen setzt fast immer ein Cluster voraus, da der Failover sonst nicht funktionieren könnte.
Was ist ein Cluster-Knoten?
Ein Knoten ist ein einzelner physikalischer Server innerhalb des Clusters. Jeder Knoten trägt zur Rechenleistung bei und kann virtuelle Maschinen oder Dienste hosten. Fällt ein Knoten aus, übernimmt ein anderer dessen Aufgaben, sofern HA konfiguriert ist. Alle Knoten teilen sich normalerweise zentrale Cluster-Informationen, z. B. über ein Managementnetz oder eine gemeinsame Datenbank.
Wie funktioniert Failover im Cluster?
Beim Failover erkennt der Cluster, wenn ein Knoten oder eine Ressource nicht mehr reagiert. Anschließend startet er die betroffenen Dienste oder VMs auf einem anderen, funktionierenden Knoten neu. Viele Systeme überprüfen im Sekunden- oder Millisekunden-Takt den Zustand der Clusterknoten. Ein gut konfiguriertes Failover minimiert Unterbrechungen und stellt die Dienste schnell wieder her.
Welche Rolle spielt Shared Storage im Cluster?
Shared Storage bedeutet, dass alle Cluster-Knoten Zugriff auf denselben Datenspeicher haben – z. B. ein SAN-, NAS- oder Ceph-System. Dies ist für VM-Failover wichtig, da die virtuelle Maschine ihre Daten unabhängig vom Hostknoten verwenden kann. Ohne Shared Storage müssten VMs per Replikation synchron gehalten werden. Ein zentrales Storage-System vereinfacht das Management und reduziert Inkonsistenzen.
Wie viele Knoten braucht ein zuverlässiger Cluster mindestens?
Ein Cluster besteht technisch schon ab zwei Knoten. Für produktive HA-Umgebungen wird jedoch häufig ein Drei-Knoten-Cluster empfohlen. Der zusätzliche Knoten erleichtert Quorum-Entscheidungen und verhindert sogenannte „Split-Brain“-Situationen. In Virtualisierungsumgebungen wie Proxmox oder VMware ist ein Drei-Knoten-Setup der Standard bei hohen Verfügbarkeitsanforderungen.
Was ist ein Quorum im Cluster und warum ist es wichtig?
Das Quorum entscheidet, ob ein Cluster betriebsfähig bleibt und weiterhin Failover-Entscheidungen treffen darf. Es verhindert, dass zwei getrennte Clusterteile unabhängig voneinander arbeiten (Split-Brain). Meist basiert das Quorum auf einer Mehrheitsabstimmung der Knoten oder eines zusätzlichen Quorum-Geräts. Ohne korrektes Quorum riskieren Administratoren Datenverlust oder widersprüchliche VM-Zustände.
Welche Probleme können in Clustern auftreten (z. B. Split-Brain), und wie vermeidet man sie?
Typische Probleme sind Netzwerkengpässe, Storage-Verzögerungen oder Split-Brain-Szenarien. Split-Brain bedeutet, dass zwei Knoten glauben, der jeweils andere sei ausgefallen, und beide die Rolle des „aktiven“ Knotens übernehmen. Dies führt zu doppelten Schreibvorgängen und Datenkorruption. Abhilfe schaffen redundante Heartbeat-Verbindungen, korrektes Quorum und Monitoring-Tools.
Warum braucht ein Cluster mehrere Netzwerke (LAN, Storage-Netz, Heartbeat)?
Ein Cluster trennt Verkehrsarten, um Stabilität und Performance sicherzustellen. LAN dient Clientzugriffen oder VM-Datenverkehr. Storage-Netz verbindet die Knoten mit dem gemeinsamen Speicher. Heartbeat/Interconnect überwacht die Knoten gegenseitig. Durch diese Trennung sinkt das Risiko, dass ein überlastetes Netzwerk die Clusterüberwachung stört. In produktiven Umgebungen ist dies ein entscheidender Faktor für Zuverlässigkeit.







