Stor IT Back - Ihr Speicherspezialist
Storage Deduplizierung V1.4 (c) Stor IT Back 2023
Die Deduplizierung verfolgt ähnliche Ziele wie das Tiering. Beides sind Features der Storage Virtualisierung, die die Effektivität von Storage-Lösungen erhöhen und Kosten einsparen. Die Deduplizierung soll den vorhandenen teuren Speicherplatz möglichst effektiv ausnutzen. Alle Daten die schon einmal im System gespeichert sind, müssen nicht ein zweites Mal gespeichert werden. Und das ist der Ansatz der Deduplizierung. Wie beim Tiering ist auch die Deduplizierung auf Datei- und Blockebene möglich. In beiden Fällen werden die Daten nur einmal gespeichert, alle weiteren (doppelte) Daten sind Verweise. Je nach Datenstruktur kann sehr viel Plattenplatz eingespart werden.
Diese Anwendung ist sehr leicht zu implementieren. Kommt eine neue Datei hinzu, so muss die Anwendung nur schauen, ob diese Datei schon auf der Platte vorhanden ist. Wenn ja, wird ein Verweis (dieser ist natürlich deutlich kleiner als die Datei an sich) auf die vorhandene Datei gespeichert, wenn nicht, dann wird die Datei gespeichert und eine eindeutige Checksumme gebildet. Über diese Checksumme werden dann neue Dateien abgeglichen. Die zeitliche Verzögerung hält sich in Grenzen, da ja immer nur Schreibzugriffe kontrolliert werden müssen. Das Einsparpotential ist enorm. Je mehr Daten vorhanden sind, desto größer ist auch die Wahrscheinlichkeit auf doppelte Dateien zu stoßen. Neben einem Fileserver ist die Deduplizierung auch bei der Datensicherung (Backup) möglich. Dort gibt es die größten Einsparpotentiale, da die gleichen Daten immer wieder gesichert werden. Und wenn dies bei jeder Sicherung eingespart werden kann, dann sind finanzielle Vorteile schnell ersichtlich. Im Backup-Umfeld können Einsparungen von bis zu 80% erreicht werden.
Diese Funktion kontrolliert doppelte Daten auf Blockebene.
Sie kann nicht nur gleiche Dateien identifizieren, sondern sogar Teile von Dateien.
Wird also z.B. eine Textdatei ergänzt und unter neuen Namen abgespeichert, so belegt nur
der Teil der Datei wirklich Speicherplatz, der hinzugekommen ist. Aber nicht
nur innerhalb eines Fileservers oder eines Backup-Servers werden die Blöcke
verglichen, sondern über ein gesamtes Speichersystem.
Jetzt ist auch ein Vergleich zwischen den Blöcken von Filedaten und Blockdaten
des E-Mail Servers möglich. So kann zum Beispiel erkannt werden, dass ein
Mail-Anhang auch noch auf dem Fileserver gespeichert wurde. Da die Blöcke
aber schon in der Mail vorhanden sind, belegt sie für den Fileserver keinen
Platz mehr auf dem Storage.
Bei diesen Deduplizierungen muss die zeitliche Verzögerung bei Speichervorgängen
genau beobachtet werden. Gerade bei Datenbanken und performancekritischen Anwendungen
kann dies einen negativen Einfluss haben. Bei Fileservern, Archivierungen, Datensicherungen
und speicherintensiven Anwendungen spielt die Performance häufig eine kleinere
Rolle und der Sparvorteil überwiegt.
Häufig wird die Deduplizierung (meist in Kombination mit Compression) bei All-Flash Storage Systemen
eingesetzt. Hier ist der physikalische Speicherplatz immer noch sehr teuer, jeder Einsparung an
Speicherplatz spart also sehr viel Geld. Und bei All Flash Systemen kann häufig eine kleine
Verzögerung bei Schreib-Operationen verkraftet werden, oder die Daten werden später erst verarbeitet. Der Staging-Bereich
ermöglicht dann die maximale Performance auch beim Schreiben.