Was ist Deduplizierung bei einem Storage-System?

Doppelte Blöcke werden auf den Platten erkannt und durch Verweise ersetzt. Damit können mehr Daten auf den Platten und SSDs gespeichert werden.

Beeinträchtigt die Deduplizierung die Performance?

Das kommt darauf an, ist die Erkennung der Duplizierung nicht im Datenstrom, sondern wird später erledigt, dann wirkt sich dies kaum auf die Schreibperformance aus.

Was kann an Daten nicht komprimiert werden?

Alle Daten, die schon komprimiert sind und alle Daten, die verschlüsselt vorliegen. Komprimiert sind unter anderem Videos, Musik und Bilder sowie auch PDF-Formate.

Warum werden die Daten gerade bei All-Flash-Systemen reduziert?

Dies reduziert die Kosten erheblich. Bei einer Reduktion von 4:1 oder 5:1 reduziert sich der Speicherplatz extrem, was sich in den Kosten der SSD positiv bemerkbar macht.

Warum ist eine Deduplizierung bei der Datensicherung so interessant?

Beim Backup werden ja bei Vollsicherungen immer wieder die gleichen Daten gespeichert. Selbst bei der zweiten Vollsicherung werden auf der Platte ja nur die Änderungen gespeichert.

Storage-Deduplizierung und Storage-Komprimierung V1.8 (c) Stor IT Back 2026

Deduplizierung und Komprimierung - Speicherplatz-Reduzierung

Erhöhung der Effektivität von Storage-Lösungen

Die Deduplizierung verfolgt ähnliche Ziele wie das Tiering. Beides sind Features der Storage-Virtualisierung, die die Effektivität von Storage-Lösungen erhöhen und Kosten einsparen. Die Deduplizierung nutzt den vorhandenen teuren Speicherplatz möglichst effektiv aus. Alle Daten, die schon einmal im System gespeichert sind, müssen nicht ein zweites Mal gespeichert werden. Und das ist der Ansatz der Deduplizierung. Wie beim Tiering ist auch die Deduplizierung auf Datei- und Blockebene möglich. In beiden Fällen werden die Daten nur einmal gespeichert, alle weiteren doppelte Daten sind Verweise. Je nach Datenstruktur kann sehr viel Plattenplatz eingespart werden.

Deduplizierung für All-Flash-Storage

Bei der Datenkompression werden die vorhandenen zu speichernden Daten einfach komprimiert. Bei Daten muss natürlich eine verlustfreie Komprimierung verwendet werden. Hierbei werden verschiedene mathematische Algorithmen verwendet, die bei unterschiedlichen Daten unterschiedlich gute Ergebnisse erzielen. Für bestimmte Daten gibt es jeweils gute und nicht so gute Verfahren. Aber da auf einem Storage-System unterschiedliche und nicht vorbestimmte Daten liegen, kann dies nur schwer vorbestimmt werden.

Inhaltsverzeichnis Deduplizierung und Komprimierung

1. Deduplizierung und Komprimierung - Speicherplatz-Reduzierung
2. Sonstiges rund um Deduplizierung und Komprimierung
1. 2.1 FAQ zu Deduplizierung und Komprimierung
2. 2.2 Angebote rund um Deduplizierung und Komprimierung

Anwendung: Deduplizierung beim Fileserver und Backup-Server

Diese Anwendung ist sehr leicht zu implementieren. Kommt eine neue Datei hinzu, so muss die Anwendung nur schauen, ob diese Datei schon auf der Platte vorhanden ist. Wenn ja, so wird ein Verweis (dieser ist natürlich deutlich kleiner als die Datei an sich) auf die vorhandene Datei gespeichert. Wenn die Datei nicht vorhanden ist, dann wird sie gespeichert und für die Datei eine eindeutige Checksumme gebildet. Über diese Checksumme werden dann neue Dateien abgeglichen. Die zeitliche Verzögerung hält sich in Grenzen, da ja immer nur Schreibzugriffe kontrolliert werden müssen. Das Einsparpotenzial ist enorm. Je mehr Daten vorhanden sind, desto größer ist auch die Wahrscheinlichkeit, auf doppelte Dateien zu stoßen. Neben einem Fileserver ist die Deduplizierung auch bei der Datensicherung (Backup) möglich. Dort gibt es die größten Einsparpotenziale, da die gleichen Daten immer wieder gesichert werden. Und wenn dies bei jeder Sicherung eingespart werden kann, dann sind finanzielle Vorteile schnell ersichtlich. Im Backupumfeld können Einsparungen von bis zu 80% erreicht werden.

Anwendung: Deduplizierung auf Blockebene

Diese Funktion kontrolliert doppelte Daten auf Blockebene. Sie kann nicht nur gleiche Dateien identifizieren, sondern sogar Teile von Dateien. Wird also z.B. eine Textdatei ergänzt und unter neuem Namen abgespeichert, so belegt nur der Teil der Datei wirklich Speicherplatz, der hinzugekommen ist. Aber nicht nur innerhalb eines Fileservers oder eines Backup-Servers werden die Blöcke verglichen, sondern über ein gesamtes Speichersystem.

Jetzt ist auch ein Vergleich zwischen den Blöcken von Dateidaten und Blockdaten des E-Mail-Servers möglich. So kann zum Beispiel erkannt werden, dass ein Mail-Anhang auch noch auf dem Fileserver gespeichert wurde. Da die Blöcke aber schon in der Mail vorhanden sind, belegt der Anhang für den Fileserver keinen Platz mehr auf dem Storage.

Deduplizierung auf Blockebene

Bei dieser Form der Deduplizierung muss die zeitliche Verzögerung bei Speichervorgängen genau beobachtet werden. Gerade bei Datenbanken und performancekritischen Anwendungen kann dies einen negativen Einfluss haben. Bei Fileservern, Archivierungen, Datensicherungen und speicherintensiven Anwendungen spielt die Performance häufig eine kleinere Rolle und der Sparvorteil überwiegt.

Häufig wird die Deduplizierung (meist in Kombination mit Compression) bei All-Flash-Storage-Systemen eingesetzt. Hier ist der physikalische Speicherplatz immer noch sehr teuer, jede Einsparung an Speicherplatz spart also sehr viel Geld.

Anwendung: Komprimierung auf Blockebene

Auch hier gibt es die Möglichkeit, den Datenstrom quasi im Stream zu komprimieren oder es später im Staging zu verarbeiten. Dies hängt entscheidend von der Hardware des Systems ab. Enthält dies zum Beispiel einen speziellen Chip für eine Hardware-Komprimierung, dann kann dies ohne große Performance-Einbußen direkt beim Schreiben bzw. Lesen durchgeführt werden.

Ohne diese spezielle Hardware wird die CPU des Storage stark belastet. Aber nicht nur dies, da eine normale CPU nicht auf diese Operationen optimiert wurde, wird auch jeder IO stark verzögert. Da bietet sich ein Staging an, evtl. auch gleich in Kombination mit der Deduplizierung.

Die Komprimierung auf Blockebene wird heute eigentlich nur auf All-Flash-Systemen angewendet. Und das primär zur Kostenreduzierung.

Performance bei Deduplizierung

Bei All-Flash Systemen kann häufig eine kleine Verzögerung bei Schreiboperationen verkraftet werden. Aber nicht immer, also gibt es Features, die auch dies verhindern. Hierbei werden die Daten erst einmal in einen Speicherbereich geschrieben, der nicht beeinflusst wird. Die Daten können also mit maximaler Performance geschrieben werden. Erst bei einer geringen Auslastung des Storage und unabhängig vom eigentlichen Datenstrom werden die Rohdaten später verarbeitet. Dieser Staging-Bereich ermöglicht dann die maximale Performance auch beim Schreiben.

Bei speziellen Systemen kann die Deduplizierung sogar auf den Client verlagert werden. Hiermit kann dann auch das Netzwerk entlastet werden, da nur noch neue Daten übertragen werden müssen.

FAQ zum Thema Deduplizierung im Storage-Umfeld

Was bedeutet Deduplizierung im Storage-Umfeld?

Deduplizierung ist ein Verfahren zur Vermeidung mehrfach gespeicherter Daten. Identische Datenblöcke werden nur einmal gespeichert und anschließend durch Verweise ersetzt. Dadurch reduziert sich der benötigte Speicherplatz erheblich, besonders in Umgebungen mit vielen ähnlichen Dateien oder Backups. Typische Beispiele sind virtuelle Maschinen, Benutzerprofile oder E-Mail-Archive. Unternehmen können dadurch sowohl Speicherplatz als auch Backup-Kosten reduzieren.

Was ist der Unterschied zwischen Deduplizierung und Komprimierung?

Bei der Komprimierung werden Daten mathematisch verkleinert, indem redundante Informationen innerhalb einer Datei reduziert werden. Deduplizierung hingegen erkennt identische Daten zwischen mehreren Dateien oder Systemen. Beide Technologien verfolgen dasselbe Ziel – Speicherplatz sparen – arbeiten aber unterschiedlich. In der Praxis werden sie oft kombiniert eingesetzt. Beispielsweise kann ein Backup-System zuerst deduplizieren und die verbleibenden Daten anschließend komprimieren.

Welche Vorteile bieten Deduplizierung und Komprimierung für Unternehmen?

Der größte Vorteil ist die deutliche Reduzierung des Speicherbedarfs. Dadurch sinken Kosten für Storage-Hardware, Rechenzentrumsfläche und Energieverbrauch. Zusätzlich verkürzen sich häufig Backup- und Replikationszeiten, da weniger Daten übertragen werden müssen. Besonders in virtuellen Umgebungen oder bei täglichen Backups können Einsparungen von 50–90 % erreicht werden. Unternehmen profitieren außerdem von einer besseren Skalierbarkeit ihrer Infrastruktur.

In welchen Bereichen lohnt sich Deduplizierung besonders?

Deduplizierung ist besonders effektiv in Backup- und Archivsystemen. Dort existieren häufig viele identische oder ähnliche Datenstände. Auch virtuelle Desktop-Infrastrukturen (VDI) und virtuelle Maschinen profitieren stark, weil Betriebssystemdateien oft identisch sind. Weniger sinnvoll ist Deduplizierung bei bereits komprimierten Daten wie Videos, ZIP-Dateien oder verschlüsselten Dateien. Administratoren sollten daher den Datentyp analysieren, bevor die Funktion aktiviert wird.

Welche Arten der Deduplizierung gibt es?

Es gibt hauptsächlich Inline- und Post-Process-Deduplizierung. Bei der Inline-Deduplizierung werden doppelte Daten bereits während des Schreibvorgangs erkannt und nicht gespeichert. Das spart sofort Speicherplatz, benötigt aber mehr Rechenleistung. Die Post-Process-Deduplizierung arbeitet erst nachträglich auf bereits gespeicherten Daten. Sie belastet den Schreibvorgang weniger, benötigt jedoch zunächst zusätzlichen Speicherplatz.

Was bedeutet Block-Level- und File-Level-Deduplizierung?

Bei der File-Level-Deduplizierung werden komplette identische Dateien erkannt und nur einmal gespeichert. Das Verfahren ist einfach, erkennt aber keine Ähnlichkeiten innerhalb von Dateien. Die Block-Level-Deduplizierung arbeitet feiner und analysiert einzelne Datenblöcke innerhalb von Dateien. Dadurch können auch teilweise identische Dateien dedupliziert werden. Diese Methode liefert meist deutlich bessere Einsparungen, benötigt jedoch mehr Systemressourcen.

Hat Deduplizierung Auswirkungen auf die Systemleistung?

Ja, Deduplizierung benötigt zusätzliche CPU- und RAM-Ressourcen. Besonders Inline-Deduplizierung kann Schreibvorgänge leicht verlangsamen, da Daten vor dem Speichern analysiert werden. Moderne Storage-Systeme besitzen jedoch optimierte Hardware oder Caching-Mechanismen, um diesen Effekt zu minimieren. In den meisten Unternehmensumgebungen überwiegen die Vorteile deutlich gegenüber dem Performance-Verlust. Vor produktivem Einsatz sollte dennoch ein Lasttest durchgeführt werden.

Kann Komprimierung die Performance verbessern?

In bestimmten Szenarien ja. Wenn weniger Daten gelesen oder übertragen werden müssen, können Backups, Replikationen oder Netzwerkübertragungen schneller ablaufen. Allerdings kostet das Komprimieren und Dekomprimieren ebenfalls Rechenleistung. Systeme mit ausreichend CPU-Ressourcen profitieren häufig insgesamt von besserer Effizienz. Besonders bei langsamen WAN-Verbindungen kann Komprimierung einen deutlichen Geschwindigkeitsvorteil bringen.

Gibt es Risiken oder Nachteile bei der Nutzung?

Ein möglicher Nachteil ist die erhöhte CPU-Last auf Storage- oder Backup-Systemen. Außerdem kann die Wiederherstellung einzelner Daten geringfügig länger dauern, da Referenzen und komprimierte Daten rekonstruiert werden müssen. Fehlerhafte Planung kann dazu führen, dass ungeeignete Daten dedupliziert werden und kaum Einsparungen entstehen. Wichtig ist daher ein sorgfältiges Monitoring und regelmäßige Performance-Analyse. Gute Backup- und Restore-Tests bleiben unverzichtbar.

Angebote der Stor IT Back zum Thema Deduplizierung

Dell EMC Unity XT 380 Unified Storage
mit FC / iSCSI und NAS RAID-System
Hybrid oder All-Flash / Replikation
inkl. Installation und Einweisung
Preis
auf Anfrage

NetApp FAS2750 Unified Storage
4 x UTA2 / 2 x 25 GbE LAN pro Controller
FAS2750 mit 24 x 2,5", FAS2820 mit 12 x 3,5"
FC, CIFS, iSCSI und NFS, inkl. Installation vor Ort
Preis
auf Anfrage

Infortrend EonStor DS 1000 G3 Serie
SAS-, iSCSI-, FC-RAID-System
mit 12/16/24 SAS/SSD/SATA (2,5"/3,5")
1012R/G, 1016R/G, 1024RB/GB/G
Preis
auf Anfrage