[Support]  [Forum]  [Newsletter]       [Site-Map]  [Suche]  [Kontakt]  [Impressum]

Stor IT Back - Ihr Speicherspezialist

[Angebote]   [Produkte]   [Schulungen]   [Firmenprofil]   [Partner]   [Kunden]   [Information]   [Download]   [News]

LOGO Stor IT Back

Tiering und Deduplizierung V1.2 (c) Stor IT Back 2014


Tiering und Deduplizierung - Storage Virtualisierung

Der Begriff Tiering kommt aus dem Englischen und bedeutet so viel wie Abstufen oder Staffelung. Diese Worte beschreiben die Technologie sehr gut. Bei Speichermedien gibt es Performance- und damit auch Preisunterschiede. Die SSDs sind am schnellsten, leider aber auch am teuersten. Die SAS-Festplatten (mit 15k) sind am zweit-schnellsten, kostengünstiger als SSDs, aber trotzdem noch recht teurer bei großen Kapazitäten. Danach kommen die SATA-Festplatten (bzw. NL-SAS) mit 7.200 Umdr./min und dann die 5.400er SATA Platten.

Es wäre dann also das preislich Effektivste, wenn man die SSD-Platten nur für hochperformante Daten nutzen würde, die wichtigen und performanten Daten auf SAS Festplatten und alles andere wird auf den SATA-Platten oder NL-SAS gespeichert.
Und genau das ist der Ansatz von Tiering. Wichtige und performante Daten auf die erste Stufe (Tier 0) und selten genutzte Daten auf die dritte Stufe (Tier 2). Daten die zwischen maximaler Performance und seltener Nutzung liegen, kommen auf Tier 1. Übrig bleibt, was eigentlich nicht mehr genutzt wird (aber natürlich niemand löschen möchte, es könnte ja noch mal gebraucht werden), dies kommt auf Tier 3. Tier 3 können dann z.B. die langsamen SATA-Platten sein, die zum Beispiel nur dann laufen, wenn auch wirklich Daten gebraucht werden. Neben der Kostenoptimierung kann also zusätzlich auch Energie eingespart werden.
Anmerkung zu SSDs:
Sie haben einen großen Nachteil: Auf SSDs kann nicht unendlich häufig geschrieben werden, einzelne Blöcke fallen bei vielen Schreibzugriffen schneller aus. Aber beim Tiering ist das kein Problem, eine Optimierung kann zusätzlich auch noch auf die Zugriffsart erfolgen. Schreibzugriffe gehen zum Beispiel erst immer auf Tier 1 und es erfolgt dann eine Umlagerung auf Tier 0, wenn häufig gelesen wird.

Kurz: Storage Tiering ist das Verschieben von Daten auf verschiedene Typen von Speichermedien nach vordefinierten Regeln.

Anmerkung zu den Tiers:
Als der Begriff Tiering mit den Abstufungen erfunden wurde, gab es noch keine SSDs. Daher wurde als Tier 1 die damals schnellsten FC- und SCSI-Platten festgelegt. Als dann die schnelleren SSDs auf den Markt kamen, behielten die anderen Stufen ihre Namen, die SSDs wurden zu Tier 0.

Anwendung: File Tiering

Beim File Tiering, also dem dateibasierenden Verschieben, wird immer die ganze Datei betrachtet. Zum Beispiel in einem Fileserver: Es gibt Dateien die häufig genutzt werden, Dateien die selten genutzt werden und viele Daten die eigentlich nur einmal geschrieben werden, aber danach nie wieder genutzt werden. Da kann die Aufteilung auf die einzelnen Storage-Tiers sehr einfach erfolgen. Es muss nur die Änderungs- und Zugriffshäufigkeit der Datei ermittelt werden und dann eine Verschiebung auf die unterschiedlichen Plattengruppen vorgenommen werden. Dies wird schon sehr lange unter dem Begriff HSM (Hierarchisches Speicher-Management) eingesetzt. Die HSM-Funktion nutzt also das Tiering.
Ein manuelles File-Tiering ist auch möglich. Auf einem Fileserver muss nur nach alten und nicht genutzten Dateien gesucht werden und diese können dann verschoben werden. Dann tritt allerdings das Problem auf, das keine die Daten später wieder finden kann. Also braucht man doch eine HSM Software, die den Zugriff über die Tiers ermöglicht.

Anwendung: Block Tiering

Beim File-Tiering war die Unterscheidung noch sehr einfach, beim Block Tiering wird es komplizierter. Das File Tiering hat der Fileserver übernommen und der brauchte nur die Filesystem-Informationen auszuwerten. Beim Block Tiering übernimmt es das Speichersubsystem und das kennt weder Filesystem noch Dateien, es kennt nur Blöcke auf den Festplatten.
Und genauso wie im Filesystem ermittelt die Tiering-Anwendung im Speicher-Controller die Zugriffshäufigkeit von Blöcken und verschiebt mit diesen Informationen die Blöcke zwischen den Festplatten-Tiers.
Ein Beispiel einer Datenbank: Die Datenbanken bestehen auf der Festplatte aus Blöcken, die entweder häufig genutzt werden oder aus Blöcken die nur selten gelesen werden. Ermittelt der Controller eine kleine Nutzungsfrequenz, so werden die Blöcke auf SATA-Platten ausgelagert. Bei häufigen Zugriffen bleiben sie auf schnellen SAS-Platten oder werden später darauf verschoben. Ist auch SSD-Speicher vorhanden, so können extrem häufig gelesene Daten auch auf diese SSDs verschoben werden. Da SSDs aber nicht so häufig beschrieben werden sollen, werden alle Write-I/Os erstmal auf die SAS-Platten geschrieben und dann analysiert. Das Migrationsverhalten (Tiering) ist von außen konfigurierbar.
Welche Vorteile bringt diese Methode? Für die Performance wichtige Blöcke sind auf schnellen Platten, schnelle Platten sind aber teurer in der Anschaffung. Also sollten sie auch nur für hochperformante Daten genutzt werden, alles andere geht auf SATA-Platten und spart teuren Speicherplatz. Auch SSDs lassen sich ideal einsetzen. Wenig Speicherplatz für extrem performante Daten und wenig Schreibzugriffe auf die SSDs. Ideale Bedingungen für die SSDs, der Speicherplatz wird passend genutzt und die Schreibzugriffe werden reduziert.
Beim Block Tiering ist allerdings keine manuelle Verschiebung der Blöcke möglich, dies muss eine Anwendung im Speicherkontroller vollständig erledigen. Probleme können auftreten, wenn der Anwender mit der Verteilung nicht einverstanden ist. Wird zum Beispiel eine Datenbank auf den nächtlichen Batchbetrieb automatisch optimiert, kann es sein das beim Online-Betrieb am Tag das Tiering nicht ideal ist. In den meisten Fällen lassen sich solche Schwankungen durch eine passende Konfiguration verhindern.

Einführung Deduplizierung

Die Deduplizierung verfolgt ähnliche Ziele wie das Tiering. Beides sind Features der Storage Virtualisierung, die die Effektivität von Storage-Lösungen erhöhen und Kosten einsparen. Sie sollen beide den vorhandenen Speicherplatz möglichst effektiv ausnutzen. Aber der Ansatz bei der Deduplizierung ist anders. Alle Daten die schon einmal im System gespeichert sind, müssen nicht ein zweites Mal gespeichert werden. Und das ist der Ansatz der Deduplizierung. Wie beim Tiering ist auch die Deduplizierung auf Datei- und Blockebene möglich. In beiden Fällen werden die Daten nur einmal gespeichert, alle weiteren (doppelte) Daten sind Verweise. Je nach Datenstruktur kann sehr viel Plattenplatz eingespart werden.

Anwendung: Deduplizierung beim Fileserver und Backup-Server

Diese Anwendung ist sehr leicht zu implementieren. Kommt eine neue Datei hinzu, so muss die Anwendung nur schauen, ob diese Datei schon auf der Platte vorhanden ist. Wenn ja, wird ein Verweis (dieser ist natürlich deutlich kleiner als die Datei an sich) auf die vorhandene Datei gespeichert, wenn nicht, dann wird die Datei gespeichert und eine eindeutige Checksumme gebildet. Über diese Checksumme werden dann neue Dateien abgeglichen. Die zeitliche Verzögerung hält sich in Grenzen, da ja immer nur Schreibzugriffe kontrolliert werden müssen. Das Einsparpotential ist enorm, je mehr Daten vorhanden sind, desto größer ist auch die Wahrscheinlichkeit auf doppelte Dateien zu stoßen. Neben einem Fileserver ist die Deduplizierung auch bei der Datensicherung (Backup) möglich. Dort gibt es die größten Einsparpotentiale, da die gleichen Daten immer wieder gesichert werden. Und wenn dies bei jeder Sicherung eingespart werden kann, dann sind finanzielle Vorteile schnell ersichtlich. Im Backup-Umfeld können Einsparungen von bis zu 80% erreicht werden.

Anwendung: Deduplizierung auf Blockebene

Diese Funktion kontrolliert doppelte Daten auf Blockebene. Sie kann nicht nur gleiche Dateien identifizieren, sondern sogar Teile von Dateien. Wird also z.B. eine Textdatei ergänzt und unter neuen Namen abgespeichert, so belegt nur der Teil der Datei wirklich Speicherplatz, der hinzugekommen ist. Aber nicht nur innerhalb eines Fileservers oder eines Backup-Servers werden die Blöcke verglichen, sondern über ein gesamtes Speichersystem. Jetzt ist auch ein Vergleich zwischen den Blöcken von Filedaten und Blockdaten des E-Mail Servers möglich. So kann zum Beispiel erkannt werden, dass ein Mail-Anhang auch noch auf dem Fileserver gespeichert wurde. Da die Blöcke aber schon in der Mail vorhanden sind, belegt sie für den Fileserver keinen Platz mehr auf dem Storage.
Bei diesen Deduplizierungen muss die zeitliche Verzögerung bei Speichervorgängen genau beobachtet werden, gerade bei Datenbanken und performancekritischen Anwendungen kann dies einen Einfluss haben. Bei Fileservern, Archivierungen, Datensicherungen und speicherintensiven Anwendungen spielt die Performance häufig eine kleinere Rolle und der Sparvorteil überwiegt.


Angebote der Stor IT Back zum Thema Tiering

Angebot Dell EMC VNXe3200
Dell EMC VNXe3200 Unified Storage für den Mittelstand
FC / iSCSI und NAS - to - SATA-/SAS- RAID-System

Dell EMC VNXe3200 mit bis zu 150 Festplatten
SSD / Flash-Drive für FAST Cache oder FAST VP
ab 9.509,00 Euro
zzgl. MwSt.
Angebot Netapp FAS2552
NetApp FAS2552 mit Dual Controller Unified Storage
4 x UTA2 Ports und 2 x 1 Gbit/s LAN pro Controller

FAS2552 mit 24 x 2,5", FAS2554 mit 24 x 3,5"
Fibre Channel, CIFS, iSCSI und NFS, inkl. Installation vor Ort
Preis
auf Anfrage
Angebot Infortrend ESDS 1000
Infortrend EonStor ESDS 1000 Serie
SAS/iSCSI/FC - to - SAS RAID-System

mit 12/16/24 x SAS Einschüben (Hot Swap)
Infortrend ESDS 1012R/G, 1016R/G, 1024RB/GB/G
ab 2.166,00 Euro
zzgl. MwSt.
 
 
Zurück zur Übersicht
Übersicht
nach oben
nach oben
Übersicht der Angebote
Angebote
Kontakt zur Stor IT Back
Kontakt
Suche auf der Webseite
Suche