IT Ausfall – Störungsbericht 

Am 22.12.2016 kam es zu einer erheblichen Störung aller von der BundesIT bereitgestellten Dienste. Die Wiederherstellung wurde, so weit möglich, am 23.12.2016 04:00 abgeschlossen.

Ereignisse

Nach aktuellem Stand der Analysen lässt sich der Ablauf der Störung wie folgt zusammen fassen:

21.12.2016

  • ca 22:30 – 23:30
    Der zentrale HP Switchstack hat Pakete auf LACP Trunk Ports sporadisch verworfen. Dies führte zur Beeinträchtung von div. Datenbank Replikationen.

22.12.2016

  • ab ca 01:00
    Eine Korrupte MAC Tabelle auf einem der Knoten des Switchstacks hatte zur Folge das alle Pakete, unabhängig von Quelle und Ziel, auch über den Inter-Connect des Stacks geleitet wurden. Dadurch wurde dieser zu 100% ausgelastet.
  • ab 02:44
    Erste Ausfälle auf Grund der Überlaust auf dem Switch Inter-Connect treten auf.
  • 04:25
    Der Switchstack hat auf Grund einer defekten VLAN Datenbank den Traffic für das NAS Storage System fehlerhafter Weiße über andere VLANS geleitet. Dies führte zu einem temporären Verlust aller Virtuellen, nicht lokalen HDD’s der Virtuellen System im laufenden Betrieb.

Alle genannten Fehler sind bei HP bekannte und Dokumentierte Bugs der von uns eingesetzten Firmware ( Stand August 2016 ) und wurden in der letzten Firmware, veröffentlicht November 2016, behoben.

Folgen

  • Allgemein
    • Der Verlust der HDD’s sorgte für einen schleichenden Verlust der Verfügbarkeit von allen Diensten
  • Backup
    • Auf Grund des harten Wegfalls der System und Backup-Platten sind die Backup Daten der letzten 48 Stunden korrupt
  • Bundes-Webseite (piratenpartei.de)
    • Die Datenbank ist korrupt und kann nicht restauriert werden
    • Das aktuelle Backup ist korrupt und kann nicht restauriert werden
    • Das Wöchentliche Backup ist auf Grund eines Dateisystemfehlers nicht auffindbar.
      Forensische Maßnahmen wurden begonnen und befinden sich noch in der Umsetzung

Sofortmaßnahmen

  • Alle kritschen Systeme herunter gefahren um weiteren Datenverlust zu vermeiden
  • Analyse des Zustandes vor Ort im Rechenzentrum
  • Update der Switch-Software
  • Restore der Switch-Config
  • Sequentielle Inbetriebnahme aller Systeme
  • Reparatur der Dateisysteme
  • Wiederherstellung von Daten aus Backups sofern möglich

Weiterführende Maßnahmen

  • Forensische Analysen der Dateisysteme um weitere Daten wiederherstellen zu können
  • Kontrolle der Daten-Integrität aller Systeme
  • Wiederaufbau von Backup und Bundes-Webseite

Empfehlungen

Um im Falle eines solch massiven Problems im Bereich der Storage- und Netzwerk-Anbindung die Integrität der Backup gewährleisten zu können ist ein Off-Site Backup zwingend erforderlich. Hierfür sehen wir mehrere Möglichkeiten:

  • Hosting von entsprechenden Maschinen in Landes-ITs ( erste Möglichkeiten wurden bereits ermittelt )
    • Datenschutz gewährleistet
    • Keine Hosting-Kosten ( bei „Backup-Tausch“ )
    • Es fällt ein erhöhter Traffic an, welcher gekauft werden muss
  • Anmietung von Rack-Space an einem anderen Standort des Housing Partners
    • Datenschutz gewährleistet
    • Geringere Traffic-Kosten
    • Volle Kontrolle über Hardware und Systeme, flexible und schnelle Backup/Restore Lösungen möglich.
    • Es fallen Kosten für Housing an
    • Hardware-Kosten

4 Kommentare

  1. 1

    Danke euch für den Einsatz und den ausführlichen Bericht 🙂 Gibt es eine ungefähre Kostenschätzung (Größenordnung) zu den beiden vorgeschlagenen Off-Site Backup Möglichkeiten?

  2. 2

    a) Wieso war da eine Firmware vom August 2016 drauf?

    b) „…Problems im Bereich der Storage- und Netzwerk-Anbindung die Integrität der Backup gewährleisten zu können ist ein Off-Site Backup … erforderlich“
    Wo ist da der Zusammenhang?

    • a) Weil ein Firmware-Update eine 100% Downtime impliziert und vor Ort ausgeführt werden sollte. Letzte große Wartung dazu war im August
      b) Weil Offsite Backups nicht von der lokalen Infrastruktur, und solch massiven Problemen wie in diesem Fall, abhängig sind.

  3. 3
    Detlef Rausch

    Dieser Vorfall macht mich sehr nachdenklich, gleichzeitig bestätigt er meine Zweifel an der überschwänglichen und bedenkenlosen Begeisterung für Internet und Vernetzung unserer Gesellschaft.
    Auch wenn ich die vielen Möglichkeiten des Internets nicht missen möchte, betrachte ich meine seit vielen Jahren propagierte Haltung mehr als angebracht, die Gefahr von „Abhängigkeiten“ in Bezug auf das Internet (egal ob Sucht oder Daten in der Cloud) nicht zu unterschätzen.

Was denkst du?