Notfallwartung 29.12.2016 – 01.01.2017

Auf Grund eines defekten Storage Systems und mehreren Sicherheitskritischen Updates auf den eingesetzten Systemen werden wir vom 29.12.2016 22:00 bis zum 01.01.2017 12:00 mehrere Systeme kurzzeitig herunterfahren müssen.

Wir informieren in diesem Zeitraum via Twitter welche Systeme jeweils betroffen sind.

IT Ausfall – Störungsbericht 

Am 22.12.2016 kam es zu einer erheblichen Störung aller von der BundesIT bereitgestellten Dienste. Die Wiederherstellung wurde, so weit möglich, am 23.12.2016 04:00 abgeschlossen.

Ereignisse

Nach aktuellem Stand der Analysen lässt sich der Ablauf der Störung wie folgt zusammen fassen:

21.12.2016

  • ca 22:30 – 23:30
    Der zentrale HP Switchstack hat Pakete auf LACP Trunk Ports sporadisch verworfen. Dies führte zur Beeinträchtung von div. Datenbank Replikationen.

22.12.2016

  • ab ca 01:00
    Eine Korrupte MAC Tabelle auf einem der Knoten des Switchstacks hatte zur Folge das alle Pakete, unabhängig von Quelle und Ziel, auch über den Inter-Connect des Stacks geleitet wurden. Dadurch wurde dieser zu 100% ausgelastet.
  • ab 02:44
    Erste Ausfälle auf Grund der Überlaust auf dem Switch Inter-Connect treten auf.
  • 04:25
    Der Switchstack hat auf Grund einer defekten VLAN Datenbank den Traffic für das NAS Storage System fehlerhafter Weiße über andere VLANS geleitet. Dies führte zu einem temporären Verlust aller Virtuellen, nicht lokalen HDD’s der Virtuellen System im laufenden Betrieb.

Alle genannten Fehler sind bei HP bekannte und Dokumentierte Bugs der von uns eingesetzten Firmware ( Stand August 2016 ) und wurden in der letzten Firmware, veröffentlicht November 2016, behoben.

Folgen

  • Allgemein
    • Der Verlust der HDD’s sorgte für einen schleichenden Verlust der Verfügbarkeit von allen Diensten
  • Backup
    • Auf Grund des harten Wegfalls der System und Backup-Platten sind die Backup Daten der letzten 48 Stunden korrupt
  • Bundes-Webseite (piratenpartei.de)
    • Die Datenbank ist korrupt und kann nicht restauriert werden
    • Das aktuelle Backup ist korrupt und kann nicht restauriert werden
    • Das Wöchentliche Backup ist auf Grund eines Dateisystemfehlers nicht auffindbar.
      Forensische Maßnahmen wurden begonnen und befinden sich noch in der Umsetzung

Sofortmaßnahmen

  • Alle kritschen Systeme herunter gefahren um weiteren Datenverlust zu vermeiden
  • Analyse des Zustandes vor Ort im Rechenzentrum
  • Update der Switch-Software
  • Restore der Switch-Config
  • Sequentielle Inbetriebnahme aller Systeme
  • Reparatur der Dateisysteme
  • Wiederherstellung von Daten aus Backups sofern möglich

Weiterführende Maßnahmen

  • Forensische Analysen der Dateisysteme um weitere Daten wiederherstellen zu können
  • Kontrolle der Daten-Integrität aller Systeme
  • Wiederaufbau von Backup und Bundes-Webseite

Empfehlungen

Um im Falle eines solch massiven Problems im Bereich der Storage- und Netzwerk-Anbindung die Integrität der Backup gewährleisten zu können ist ein Off-Site Backup zwingend erforderlich. Hierfür sehen wir mehrere Möglichkeiten:

  • Hosting von entsprechenden Maschinen in Landes-ITs ( erste Möglichkeiten wurden bereits ermittelt )
    • Datenschutz gewährleistet
    • Keine Hosting-Kosten ( bei „Backup-Tausch“ )
    • Es fällt ein erhöhter Traffic an, welcher gekauft werden muss
  • Anmietung von Rack-Space an einem anderen Standort des Housing Partners
    • Datenschutz gewährleistet
    • Geringere Traffic-Kosten
    • Volle Kontrolle über Hardware und Systeme, flexible und schnelle Backup/Restore Lösungen möglich.
    • Es fallen Kosten für Housing an
    • Hardware-Kosten

Schadensbericht

Seit einigen Tagen kam es wiederholt zu Problemen bei der Auslieferung von div. Seiten. Vor allem bei den gehosteten WordPress Seiten gab es immer wieder starke Auslieferungsprobleme, auch im Administrations-Backend.

Wir konnten zunächst keine Ursache für diese Probleme ausmachen.

Am Freitag hat sich unser zentraler Switchstack geweigert, Pakete vernünftig weiter zu reichen. Durch einen Reboot konnten wir hier wieder für Entspannung sorgen. Jedoch hielten die Performance Probleme an.

Am Dienstag morgen mussten wir dann einen Totalausfall, von zwei Virtualisierungs-Servern verzeichnen. Ursache hierfür war eine fehlerhafte Firmware, der verbauten RAID Controller.

In einem Vororteinsatz im Rechenzentrum, wurden die Systeme mit neuer Firmware versehen und konnten danach wieder in Betrieb genommen werden. Die Performance-Probleme sind seither spürbar geringer geworden.

Lediglich das Wiki hat sich noch etwas störrig verhalten und ging gegen 22:30 am Dienstag Abend einfach schlafen. Es wurde von uns heute morgen geweckt und steht seit dem unter strenger Beobachtung.

UPDATE – Infrastrukturstörung: APP05 bootet nicht.

Aktuell ist unser Applikationserver 5 (APP05) gestört. Nach einem reboot fährt die Maschine
nicht mehr hoch.

Die IT Arbeitet daran. Betroffen unter anderem das Wiki, das momentan nicht erreichbar ist.

UPDATE 9:00 Uhr: Wiki ist wieder online.