Datensicherung

Einleitung

Daten verlieren ist schlimm.

Dies ist Teil 2 unserer Datensicherungs-Strategie.
Teil 1 über die Strukturierung unserer Daten findest du hier →

Der Aufwand, den wir betreiben, um unsere Daten zu sichern, kann gar nicht hoch genug sein.

Dabei muss es noch nicht einmal das unbeabsichtigte Löschen oder Überschreiben von Daten sein. Dateien können auch kaputt gehen. Datenspeicher dagegen gehen immer kaputt! Nur wann, das weiß man nicht.

Um Datenverlust oder kaputte Daten zu vermeiden setzen wir eine Mischung aus eindeutiger Dateibenennung, ein System des Dateihandling und Backup ein.

Mit diesen drei Methoden kann man das Risiko von Datenverlust praktisch auf Null senken.

Und das Gute ist, es kostet nicht einmal viel.


Wie sichere ich Daten jetzt?

Es gibt verschiedene, je nach Betriebsystem eingebaute Backup-Hilfen. Im folgenden möchte ich die erwähnen, die ich nicht empfehlen würde bzw nicht einsetze.

Apple TimeMachine

Zunächst halte ich von der Apple Timemachine herzlich wenig. Einziger Vorteil ist, dass die Timemachine fast alles sichert, ohne, dass man darüber nachdenken muss. Das war es dann aber auch mit den Vorteilen.

Großes Manko meiner Meinung nach ist, dass man genau wissen muß, wo etwas gespeichert war, um eine gelöschte Datei wiederherzustellen. Noch größer sehe ich die Gefahr im verwendeten Datenformat der TimeMachine. TimeMachine verwendet ein DMG (Disc Image), um dort die Daten abzulegen. Wenn das DMG kaputt geht – sei es durch einen Schreibfehler auf der Platte, durch Rechnerabsturz oder dergleichen – ist das DMG fast immer nicht mehr wiederherstellbar.

Darum speichern wir Daten NIE in komprimierter Form (ok, es gibt Ausnahmen, aber dazu später mehr).

Sync-Dienste wie Google-Filesync, Dropbox und andere

Finger weg davon. Das Arbeiten mit Dateien, die in diesen Ordnern liegen, sollte man tunlichst vermeiden. Diese Systeme eignen sich NICHT für eine Datensicherung im laufenden Betrieb.

Durch das Syncen können im laufendem Betrieb zum Beispiel InDesign-Daten kaputt geschrieben werden, weil bspw. die Sicherungsdatei, die ID anlegt, noch nicht gesynct ist oder das Indesign-Dokument noch offen ist. Dann kann es dazukommen, das asynchron gesynct wird, oder ander Zustände dazu führen, dass die eigentliche Indesign-Datei quasi kaputt-gesichert wird. Daher NIE in den SYNC-Ordnern arbeiten.


Unterschiede in Backup-Strategien

Differenzielle oder inkrementell?

Es gibt, grob gesagt, drei Ansätze wie Daten in Backups gesichert werden.

Die einfachste ist, jedes mal ein volles Backup zu fahren. Dabei werden alle Daten komplett kopiert. Das ist aber bei größeren Datenmengen sehr zeitaufwändig.

Daraus hat man zwei weitere Methoden entwickelt.

Die erste Methode, das differenzielle Sichern von Daten und aufwändiger die zweite Methode, das inkrementelle Sichern.

Differenzielle Sicherung

Bei dieser Methode erstellt die Software erst einmal ein Vollbackup aller zu sichernden Daten an. In weiteren Sicherungsläufen werden dann nur noch Veränderungen am Datenbestand gesichert. Was ist dazugekommen, was hat sich geändert, was wurde gelöscht.

Vorteil: der aktuelle Datenbestand lässt sich sofort zurückspielen.

Nachteil: es erfolgt keine Historienschreibung - man bekommt alles auf einmal wieder.

Inkrementelle Sicherung

Auch hier wird erst ein Vollbackup der Daten erstellt.

In folgenden Backupläufen werden geänderte Daten mit einem Zeitstempel versehen und nur geänderte Daten mit diesem Zeitstempel an das Backup angehangen.

Das geht schnell, hat aber ein großen Nachteil: um die Daten komplett wiederherzustellen, braucht man alle Backupvorgänge. Fehlen die Infos zu Backupvorgängen (Software kaputt, Daten verloren), fehlen bei einem Backup einzelne Dateien. Schlimmstenfalls können die Daten nicht zurückgesichert werden, oder es ist nicht klar, welche Datei von welchem Datum ist. Ein weiterer Nachteil ist, dass Backups immer größer werden, da geänderte Daten quasi immer an das bestehende Backup angefügt werden.


Unsere Backup-Strategie

Damit wir von Software und Backupsoftware möglichst unabhängig sind, setzen wir eine Mischung aus differenziellem Backup und eigenen Datenstrukturen ein.

Das heißt, wir arbeiten mit unseren Daten inkrementell und speichern das Ganze differenziell.

Annm: die hier beschriebenen Mechanismen richten sich in erster Linie an InDesign- und Photoshop-User. Für Webdeveloper gibt es passendere Lösungen wie git, vcs, cvs, svn etc. Die machen dann automatisch eine inkrementelle Verwaltung der Dateiversionen.

Welche Daten sind wichtig

Bevor wir Daten sichern, sollten wir uns überlegen, welche Daten uns wichtig sind.

Wir unterscheiden da zwischen:

  • Kundendaten (heilig und kostbar)
  • eigene Daten (wichtig, aber wenn sie weg sind ist das nur doof und kostet in der Regel nur graue Haare und Wutpickel)
  • eigener Rechner und Betriebsystem (nicht ganz so wichtig, lästig wenn er abraucht)
  • Programme (eher unwichtig, weil immer wieder zu beschaffen)
  • Sonstiges

Je wichtiger die Daten, desto höher sollte der Aufwand sein, den wir betreiben, sollte es zu einem Ausfall kommt. Und da denken wir zum Beispiel an Festplattencrash, Raid-Fehler, Einbruch, Feuer etc.)

Ordnung in den Daten

Strukturierte Daten-Ordnung = strukturierte Backups

Die einfachste Art ein Backup zu machen ist wie gesagt: einfach alles sichern.

Das geht auch, solange die Datenmengen übersichtlich sind. Da jedes Backup Zeit kostet, um festzustellen, was gesichert werden muss, kann es bei kurzen Sicherungs-Intervallen dazu kommen, dass das Backup noch läuft, während schon das nächste anstehen würde. Nicht sinnvoll...

Daher macht es Sinn, alle Daten strukturiert abzulegen.

Dazu haben wir zwei Vorgaben:

  • Daten werden an einem eindeutig definiertem Platz gespeichert (und nicht irgendwo auf dem Desktop 'zwischengelagert')
  • der Datenspeicherort ist immer verfügbar (also keine Wechselplatte oder sonst etwas)

Bei uns liegen die gesamten Daten zentral auf einem Raid-System. Auf dieses System haben mehrere User Zugriff.

Wann sichert man?

Immer dann, wenn sich etwas ändert oder wenn es der Wert der Daten erforderlich macht.

Anhand der Wichtigkeit der Daten können jetzt Zeitintervalle festgelegt werden, in denen Daten gespeichert werden.

Unsere Kundendaten sichern wir in der Regel täglich, manche Kontrolldaten, Skripte oder dgl. sogar stündlich. Weniger wichtige Daten werden monatlich gespeichert (Musik, ebooks etc.).

Ein einfaches Backup-Setup

Da wir jetzt definiert haben, was und wichtig ist und wie oft wir sichern wollen, können wir jetzt Backup-Jobs definieren.

Für ein einfaches, lokales Backup reicht erst einmal eine externe Platte.

Damit wir nicht immer selber an das Backup denken, setzen wir hierfür eine Backup-Software ein, die für uns automatisch die einzelnen Backup-Jobs erledigt.

Wir setzen dafür die Software Carbon Copy Cloner (CCC) ein. Die Software erlaubt, zeitlich gesteuerte Backups auszuführen.

Beispielsweise läuft ein Backup des Job-Ordners mit den aktuellen Aufträgen zweimal täglich. Wichtig ist hier, dass wir auf das Kopieren in ein komprimiertes Format wie OSX DMG verzichten. Kopien in ein DMG sind zwar einen Hauch schneller, im Falle eines Kopierfehlers ist dann aber praktisch keine Möglichkeit mehr, an die Daten zu gelangen. Für Windows gibt es auch Software, die ähnlich funktioniert.

Alle Backup-Programme unterstützen in der Regel ausgefeiltere Methoden als das einfache Kopieren kompletter Daten und Dareien.

CCC setzt unter anderem rsync ein. Rsync kopiert nicht stur Dateien von A nach B, sondern teilt zu kopierende Daten in Segmente. Danach werden diese Segmente mit der Backup-Version verglichen. Nur unterschiedliche Segmente werden dann kopiert, was bei Backups großer Dateien ungemein fix geht, da nur die geänderten Segmente kopiert werden müssen. Das Endergebnis ist dann das gleiche wie eine 1:1 Kopie.

Unsere Backup-Strategie

Da wir bei unserem Dateihandling und unseren mit Datum versehenen Daten bereits eine einem inkrementellem Backup ähnliche Struktur einsetzen, verzichten wir bei unserem Backup darauf und erstellen lediglich eine Kopie unserer Daten.

Wir wissen jetzt, was wir sichern, wie wir sichern und wann wir sichern.

Das Wohin wir sichern, müssen wir noch einmal genauer untersuchen.


Daten Speicherorte

Backups der aktuellen und Langzeit-Daten speichern wir auf einem externen Medium.

Das reicht aber eigentlich noch nicht. Daten sollten zusätzlich ausserhalb der Firma/Wohnung gelagert werden um zum Beispiel bei einem Einbruch/Wasserrohrbruch nicht ohne Daten da zu stehen.

Um dies sicherzustellen, erstellen wir zusätzliche Backup-Jobs, die den Datenbestand zusätzlich in die Cloud sichern. Hier haben wir uns wegen der Einfachheit und Preis für Backblaze entschieden. Vorteil ist hier, dass wir im Notfall via FTP oder Webbrowser auf die Daten zugreifen können.

Im Gegensatz zu Amazon Glacier, die immer mit dem sehr niedrigem Preis argumentieren, gibt es bei Backblaze keine Wartezeit für eine Rücksicherung, das Backend und der Zugriff ist absolut einfach. Die Kosten bei Backblaze sind auch überschaubar. Pro TB zahlt man im Schnitt im Monat etwa 3,50 USD.



Ernstfall testen

Wichtig für den gesamten Backup-Prozess ist vor allem: wie komme ich wieder an meine Daten, wenn ich sie brauche? Das sollte man auf jeden Fall durchprobieren. Das muss klar verständlich und einfach handhabbar sein. Im Notfall hat man Stress und nicht die Zeit und Nerven, herumzuprobieren und dann festzustellen, dass man nicht an die Daten kommt.

Speichermedien

Wir speichern nun lokal unsere Daten auf ein Wechselmedium wie eine externe Platte, lagern Daten extern in die Cloud. Aber reicht das?

Wir gehen nach folgendem Schema vor:

Primäres Backup

Alle Daten bzw Sicherungsjobs laufen zuerst einmal auf ein externes Speichermedium. Das kann eine Festplatte, ein Raid oder ein anderer Rechner inhouse sein.

Hier geht es lediglich darum, alles, was im laufendem Betrieb kaputt gehen kann, ersetzbar zu machen und schnell zur Hand zu haben.

Sekundäres Backup

Das primäre Backup könnte kaputt gehen oder durch die Sicherungen ist irgend eine Datei innerhalb des Backups verloren gegangen.

Um dies zu vermeiden, kopieren wir das gesamte primäre Backup auf ein zweites, externes Speichermedium. Dieses sekundäre Backup findet nur alle 2 Wochen statt.

Danit haben wir dann zugriff auf einen 2 Wochen alten Datenbestand, der das Wiederherstellen einer Datei ermöglicht, die überschrieben oder gelöscht wurde.

Dieses sekundäre Backup kann natürlich auch um eine weitere Instanz erweitert werden, die man dann im Wechsel mit der ersten Instanz alle 2 Wochen abwechselt.

Externe Lagerung von Daten

Mit den beiden oben beschriebenen Verfahren ist man schon auf einer sehr sicheren Seite. Jetzt muss nur noch für den Fall vorgesehen werden, dass die Daten nicht gestohlen oder zerstört werden.

Dazu lassen wir von unserem Original-Speicherort Backups auf einen Cloud-Speicherplatz kopieren. Bei uns sorgt das RAID mit seiner Software dafür, dass die Daten wie oben schon genannt, bei backblaze hochgeladen werden. Hier reicht uns ein einfaches Kopieren aller Daten, aufgeteilt nach Kundendaten, Musik, Unterlagen etc. Diese Jobs haben auch wieder unterschiedliche Intervalle, je nach Wichtigkeit.

Diese Daten sind unsere Versicherung, dass wir zum Beispiel nach einem Brand noch Kundendaten haben. Diese Daten fassen wir in der Regel auch nicht an. Das Raid sorgt in definierten Zeitabständen dafür, dass der Datenbestand aktuell ist.

Cloud-Dienste

Es gibt verschiedene Anbieter, unter anderem Amazon Glacier, Microsoft Drive, Backblaze und so weiter.

Die Unterschiede der einzelnen Anbieter auszuführen, würde dieses Thema wohl etwas sprengen.

Wir hatten uns für backblaze entschieden, weil es einfacher als Glacier zu bedienen ist, und unterm Strich auch günstiger. Backblaze bietet für uns die Integration in unser Raid an.

Daten können sofort über Web oder FTP zurückgesichert werden und es ist günstig. Für unsere Daten bezahlen wir etwa USD 3,50 pro Terrabyte im Schnitt pro Monat. Es ist jederzeit kündbar und man muss sich nicht im Vorfeld auf Kontingente festlegen.


Zusammenfassung

Um Daten sicher zu handhaben und zu speichern, benötigen wir:

  • Ordnung in unseren Datenbeständen
  • Sinnvolle Benennung
  • Nutzung von eigenen Zeitstempeln
  • Eine Software, die automatisiert Daten kopiert
  • Externe Speichermedien an unterschiedlichen Orten

Was dieses System nicht ist

Diese Art von Backup ist primär als Backup gedacht. Das bedeutet, dass alle Daten flüchtig und überschrieben werden können.

Eine Archivierung ist das (noch) nicht.

Für eine Langzeit-Archivierung würden wir empfehlen, Daten in einen Archiv-Ordner auf dem primären Speichermedium zu schieben und diesen dann wie die anderen Daten dann auf einem Cloud-Server. Externe Festplatten, DVDs etc würden wir nicht empfehlen, da hier dann irgendwann die Übersicht verloren geht.

Falls man dieses doch möchte, gibt es Software, die externe Speichermedien katalogisieren kann, wie zum Beispiel NeoFinder für OSX oder abeMeda(CDWinder) für Windows.

Sonderfall DMG

Es gibt Daten, die man aufbewahren muß, aber wohl nie mehr brauchen wird.

Diese Projekte werden bei uns von allen unwichtigen alten Daten bereinigt und danach auf dem Desktop zu einem DMG zusammengepackt. Danach wird das DMG auf Integrität getestet und wird dann auf dem zentralem Speicherort in ein Endlager geschoben. Dieses Endlager sichern wir nur sporadisch in die Cloud.

Andere komprimierte Dateiformate wie zip, tar, können für diesen Fall natürlich auch verwendet werden.

Quellen:

rsync : https://de.wikipedia.org/wiki/Rsync

rdiff : https://rdiff-backup.net/

Carbon CopyCloner : https://bombich.com/de

Backblaze : https://www.backblaze.com/b2/cloud-storage.html

NeoFinder : https://www.cdfinder.de/

AbeMeda : http://www.abemeda.de/de/

Mac Conin

Mac Conin

Founder & Lead Designer

Since 1986 in business as graphic designer, first analog, then digital with GEM, Ventura and all this old stuff.