Notfallwartung 29.12.2016 – 01.01.2017

Auf Grund eines defekten Storage Systems und mehreren Sicherheitskritischen Updates auf den eingesetzten Systemen werden wir vom 29.12.2016 22:00 bis zum 01.01.2017 12:00 mehrere Systeme kurzzeitig herunterfahren müssen.

Wir informieren in diesem Zeitraum via Twitter welche Systeme jeweils betroffen sind.

IT Ausfall – Störungsbericht 

Am 22.12.2016 kam es zu einer erheblichen Störung aller von der BundesIT bereitgestellten Dienste. Die Wiederherstellung wurde, so weit möglich, am 23.12.2016 04:00 abgeschlossen.

Ereignisse

Nach aktuellem Stand der Analysen lässt sich der Ablauf der Störung wie folgt zusammen fassen:

21.12.2016

  • ca 22:30 – 23:30
    Der zentrale HP Switchstack hat Pakete auf LACP Trunk Ports sporadisch verworfen. Dies führte zur Beeinträchtung von div. Datenbank Replikationen.

22.12.2016

  • ab ca 01:00
    Eine Korrupte MAC Tabelle auf einem der Knoten des Switchstacks hatte zur Folge das alle Pakete, unabhängig von Quelle und Ziel, auch über den Inter-Connect des Stacks geleitet wurden. Dadurch wurde dieser zu 100% ausgelastet.
  • ab 02:44
    Erste Ausfälle auf Grund der Überlaust auf dem Switch Inter-Connect treten auf.
  • 04:25
    Der Switchstack hat auf Grund einer defekten VLAN Datenbank den Traffic für das NAS Storage System fehlerhafter Weiße über andere VLANS geleitet. Dies führte zu einem temporären Verlust aller Virtuellen, nicht lokalen HDD’s der Virtuellen System im laufenden Betrieb.

Alle genannten Fehler sind bei HP bekannte und Dokumentierte Bugs der von uns eingesetzten Firmware ( Stand August 2016 ) und wurden in der letzten Firmware, veröffentlicht November 2016, behoben.

Folgen

  • Allgemein
    • Der Verlust der HDD’s sorgte für einen schleichenden Verlust der Verfügbarkeit von allen Diensten
  • Backup
    • Auf Grund des harten Wegfalls der System und Backup-Platten sind die Backup Daten der letzten 48 Stunden korrupt
  • Bundes-Webseite (piratenpartei.de)
    • Die Datenbank ist korrupt und kann nicht restauriert werden
    • Das aktuelle Backup ist korrupt und kann nicht restauriert werden
    • Das Wöchentliche Backup ist auf Grund eines Dateisystemfehlers nicht auffindbar.
      Forensische Maßnahmen wurden begonnen und befinden sich noch in der Umsetzung

Sofortmaßnahmen

  • Alle kritschen Systeme herunter gefahren um weiteren Datenverlust zu vermeiden
  • Analyse des Zustandes vor Ort im Rechenzentrum
  • Update der Switch-Software
  • Restore der Switch-Config
  • Sequentielle Inbetriebnahme aller Systeme
  • Reparatur der Dateisysteme
  • Wiederherstellung von Daten aus Backups sofern möglich

Weiterführende Maßnahmen

  • Forensische Analysen der Dateisysteme um weitere Daten wiederherstellen zu können
  • Kontrolle der Daten-Integrität aller Systeme
  • Wiederaufbau von Backup und Bundes-Webseite

Empfehlungen

Um im Falle eines solch massiven Problems im Bereich der Storage- und Netzwerk-Anbindung die Integrität der Backup gewährleisten zu können ist ein Off-Site Backup zwingend erforderlich. Hierfür sehen wir mehrere Möglichkeiten:

  • Hosting von entsprechenden Maschinen in Landes-ITs ( erste Möglichkeiten wurden bereits ermittelt )
    • Datenschutz gewährleistet
    • Keine Hosting-Kosten ( bei „Backup-Tausch“ )
    • Es fällt ein erhöhter Traffic an, welcher gekauft werden muss
  • Anmietung von Rack-Space an einem anderen Standort des Housing Partners
    • Datenschutz gewährleistet
    • Geringere Traffic-Kosten
    • Volle Kontrolle über Hardware und Systeme, flexible und schnelle Backup/Restore Lösungen möglich.
    • Es fallen Kosten für Housing an
    • Hardware-Kosten

Schadensbericht

Seit einigen Tagen kam es wiederholt zu Problemen bei der Auslieferung von div. Seiten. Vor allem bei den gehosteten WordPress Seiten gab es immer wieder starke Auslieferungsprobleme, auch im Administrations-Backend.

Wir konnten zunächst keine Ursache für diese Probleme ausmachen.

Am Freitag hat sich unser zentraler Switchstack geweigert, Pakete vernünftig weiter zu reichen. Durch einen Reboot konnten wir hier wieder für Entspannung sorgen. Jedoch hielten die Performance Probleme an.

Am Dienstag morgen mussten wir dann einen Totalausfall, von zwei Virtualisierungs-Servern verzeichnen. Ursache hierfür war eine fehlerhafte Firmware, der verbauten RAID Controller.

In einem Vororteinsatz im Rechenzentrum, wurden die Systeme mit neuer Firmware versehen und konnten danach wieder in Betrieb genommen werden. Die Performance-Probleme sind seither spürbar geringer geworden.

Lediglich das Wiki hat sich noch etwas störrig verhalten und ging gegen 22:30 am Dienstag Abend einfach schlafen. Es wurde von uns heute morgen geweckt und steht seit dem unter strenger Beobachtung.

Warum Sympa

Nach unserer Ankündigung Sympa einzusetzen gab es div. Kritikpunkte. Wir werden darum noch einmal diese aufgreifen und begründen warum wir Sympa einsetzen werden:

Sympa kann kein PGP

Ja, kann es nicht. Nach aktuellem Stand wird auf einer von 930 durch die BundesIT gehosteten Listen die Funktionalität überhaupt genutzt. Da SYMPA, wie Mailman, Open Source ist kann natürlich ein Plugin dafür geschrieben werden. Leider fehlen uns dafür die zeitlichen und personellen Ressourcen.

Mailman kann auch Virtual Domains

Nein, nicht wirklich. Ja, ich kann für mehrere Domains Listen anlegen. Allerdings darf ein Listenname nicht mehrfach vorkommen. Also wäre z.B. aktive@kv-a.lists.piratenpartei.de und aktive@lv-b.lists.piratenpartei.de nicht möglich. Die vorhandenen Lösungen erfordern viel administrative Arbeit die wir aktuell personell nicht leisten können. Die Wartezeiten für neue Listen würde sich auf Monate verlängern. Außerdem wäre die Übersicht der vorhandenen Listen für die Nutzer nicht mehr lesbar, der Überblick ginge komplett verloren.

Mailman kann auch DMARC

DMARC ist eine Technologie zur Vermeidung von Phishing Mails. Leider beeinträchtig diese die Funktion von Mailinglisten. Die Software muss Maßnahmen ergreifen damit DMARC geschützte Mails auch über Mailinglisten zugestellt werden können.
Mailman hat hierfür auch Support, das ist richtig. Aber laut der Dokumentation sind nur 3 Einstellungen möglich:

  • ignorieren
  • abweisen
  • Dem Listen-Admin die Wahl überlassen

Zwar kann der Listen-Admin dann die korrekten Einstellungen setzen, aber das Risiko eines Blacklistings, falls irgendein Administrator die notwendigen Änderungen an den Mails nicht mag, und die Funktion deaktiviert, ist zu groß. Dies kann extreme Auswirkungen auf alle Mailinglisten haben.

Aber das stimmt so gar nicht, das geht doch total einfach!

Falls ihr umsetzbare und wartbare Lösungen für diese Probleme habt, könnt ihr uns gerne die Konzepte und HowTo’s zukommen lassen. Via Mail an die BundesIT Liste, kommt in die IT Telko oder veröffentlicht es irgendwo und schickt uns einen Link.

Mailman geht in Rente

Er hat uns viele Jahre treue Dienste geleistet, viele Tausende, ja Millionen an Mails verschickt und Tag und Nacht für die Piraten geschuftet. Nun geht er in seinen wohlverdienten Ruhestand.

In den nächsten Wochen wird Mailman durch eine modernere Software abgelöst werden: Sympa.

Sympa bringt viel Neues mit, was uns die tägliche Administration, und euch das arbeiten mit den Listen einfacher und angenehmer gestalten wird:

  • Virtual Domains
    • Statt kv-hinterhupfingen-aktive@lists.piratenpartei.de kann in Zukunft aktive@lists.hinterhupfingen-piratenpartei.de o.Ä. angeboten werden
  • Persönliche Logins
    • Keine Master-Passwörter mehr für die Listen-Administration
    • Jeder Benutzer kann die ihm zugewiesenen Listen nach Login mit seinen Daten verwalten
  • Listen-Vorlagen
    • Es werden div. Vorlagen für Listen von uns Bereitgestellt, z.B. für Diskussionlisten, Vorstandslisten, …
  • Übersichtlichkeit
  • Schönere Archive
  • u.v.m.

Leider verlässt uns mit Mailman auch ein Feature: Support für PGP verschlüsselte Listen. Diese müssten auf S/MIME umgestellt werden. S/MIME Zertifikate gibt es z.B. kostenlos bei StartSSL.

Wir werden versuchen die Listen schrittweise zu migrieren. Die jeweiligen Listen-Administratoren werden rechtzeitig darüber informiert. Es wird vermutlich kurzzeitig zu Einschränkungen bei den betroffenen Listen kommen, aber auch hierüber informieren wir euch noch mal gesondert.

 

Wir bedanken uns bei Mailman für seine lange und tatkräftige Unterstützung und wünschen im einen erholsamen und erfüllten Ruhestand.

 

Wartungsankündigung: Piratenpads, 14.07.2015 20-24 Uhr

Moin,

um notwendige Updates auf den Piratenpad-Servern durchzuführen und ein Zeichensatzproblem mit der Datenbank zu lösen, ist es notwendig die PADs einer Downtime zu unterziehen. Das entsprechende Wartungsfenster wird sein:

Dienstag, 14. Juli 2015
20:00 Uhr bis 24:00 Uhr.

In dieser Zeit werden die Piraten PADs nicht erreichbar sein.
Für Rückfragen nutzt bitte die Kommentare oder schreibt uns
unter support@it.piratenpartei.de

Eure Bundes IT

(SOLVED) Piratenpad & SSL Zertifikat

Moin zusammen,

bei unserem Etherpad-Server unter piratenpad.de ist heute früh das SSL Zertifikat abgelaufen. Im Normalfall haben wir das immer im Auge, nur wie Murphy es so möchte ist unser SSL Admin diese Woche leider nicht immer sofort greifbar.

Um es kurz zu machen, als Workaround haben wir ein selbst ausgestelltes Zertifikat installiert. Damit ist der Zugriff auf die PADs wieder möglich. Die aufpoppende Warnung über dieses Zertifikat muss leider weggeklickt werden.

Unter Umständen ist es notwendig den Browser-Cache zu löschen damit der Browser erkennt das sich etwas geändert hat.

Im Firefox geht man dazu in die Einstellungen und löscht dort unter Datenschutz den Cache. Alternativ kann man about:preferences#privacy in die Browserleiste eingeben.

Ein „richtiges“ Zertifikat wird von uns schnellstmöglich nachgezogen.

Eure Bundes IT

[UPDATE]
Im Firefox kann der Cache auch unter Einstellungen -> Erweitert -> Netzwerk geleert werden. Hier wird dieser vollständig gelöscht. Wohingegen der Weg über den Reiter Datenschutz ein wenig mehr Kontrolle erlaubt.

Wartungsarbeiten 25.04/26.04.2015

In der Nacht vom 25.04.2015 zum 26.04.2015 werden wir zwischen 23:00 und 4:00 div. Updates für unsere Virtualisierungs-Plattform einspielen. Ausfälle sind nicht zu erwarten.

Clack Overheader: GNU Terry Pratchett

Am 12. März 2015 ist Terry Pratchett, der Autor der Scheibenwelt-Romane, gestorben. Er war wohl einer der größten Schreiber unserer Zeit.

Die BundesIT ehrt Terry Pratchett auf eine ganz besondere Art: In den Scheibenwelt Romanen gibt es eine Technologie, die unserem Internet relativ nahe kommt: Clacks. Wenn Clacks-Operatoren sterben werden ihre Namen auf Ewig im sogenannten „Clacks Overhead“ gehalten.

Aus diesem Grund fügen wir ab sofort in jegliche HTTP Kommunikation folgenden Header ein:

X-Clacks-Overhead: GNU Terry Pratchett

GNU ist ein Clacks Steuercode und steht für:

  • G – pass the message
  • N – do not log
  • U – turn the package at the end of line

Das Trafficserver Plugin welches wir dafür geschrieben haben steht unter GPLv3.

BUNDES.IT & Crawler

Die IT Abteilung der Piratenpartei Deutschland, umgangssprachlich als BundesIT bekannt, hat weder mit der Domain „bundes.it“ noch den darunter gehosteten Inhalten irgendetwas zu tun. Eine politische, sowie rechtliche Bewertung überlassen wir dem Bundesvorstand, möchten hiermit aber nochmals zum Ausdruck bringen das zwischen der BundesIT als Dienstleister der PIRATEN und der Webseite „bundes.it“ keinerlei Verbindung besteht.

Borys Sobieski
BundesIT, die von den PIRATEN 😉