Bericht: IT Treffen in Chemnitz

Am 22. und 23.04 trafen sich im Rahmen der Verwaltungstreffens Vertreter diverser LandesITs und der BundesIT in Chemnitz.
Zwei Tage lange haben wir über den aktuellen Status der IT in Bund und Landesverbänden und über Möglichkeiten zur Zusammenarbeit diskutiert.
Anwesend waren Vertreter der ITs aus
  • Bayern
  • Brandenbug
  • Niedersachsen
  • Sachsen-Anhalt
  • Sachsen
  • Bund
Außerdem war Thomas Knoblich als Vertreter des Bundes-Vorstandes anwesend.
Die Bestandsaufnahme zeigte, dass wir in fast allen IT-Teams akute Personalprobleme haben. Oft sind es Einzelkämpfer, die die Dienste noch am Leben halten. Oder es gibt gleich gar keine Admins mehr. Vor allem an Experten für bestimmte Dienste fehlt es, so dass die Haupt-Administratoren, die sich eigentlich vorrangig um die Infrastruktur kümmern sollten, die Pflege von Wikis, Pads, Mailinglisten, WordPress-Clustern und mehr übernehmen müssen.
Auch die Kooperation zwischen den ITs wurde besprochen.
Bayern und Bund möchten in Zukunft enger zusammen arbeiten, um Redundanzen aufzubauen und gemeinsame Dienste und Projekt voranzutreiben.
So soll bis Ende Mai ein gemeinsamer DNS-Cluster aufgebaut und betrieben werden.
Mittelfristig ist der Aufbau weiterer Redundanzen geplant, so dass Wiki und Bundes-Webseite an zwei Standorten betrieben werden können. Dadurch soll es möglich sein, auch im Falle des Ausfalls einer IT die Dienste weiter zur Verfügung zu stellen. Der Domain Name Service ist dafür die Grundlage.
Sachsen-Anhalt hat angeboten, in der BundesIT zu unterstützen.
Um die Kooperation und den Austausch zwischen den ITs zu beleben und zu verbessern, möchten wir die Marina IT wieder ins Leben rufen. 
Dazu wurde die vorhandene Mailingliste bereinigt und reanimiert https://lists.piratenpartei.de/sympa/info/marina-it
Außerdem sollen wieder regelmäßige Marina-IT-Mumbles statt finden. Dazu werden wir in kürze die ersten Termine via Doodle planen.
Falls ihr in der IT eines Landesverbandes mitarbeitet, der nicht vertreten war, oder einfach die Admins unterstützen und in der IT mitarbyten möchtet, meldet euch gerne bei

Notfallwartung 29.12.2016 – 01.01.2017

Auf Grund eines defekten Storage Systems und mehreren Sicherheitskritischen Updates auf den eingesetzten Systemen werden wir vom 29.12.2016 22:00 bis zum 01.01.2017 12:00 mehrere Systeme kurzzeitig herunterfahren müssen.

Wir informieren in diesem Zeitraum via Twitter welche Systeme jeweils betroffen sind.

IT Ausfall – Störungsbericht 

Am 22.12.2016 kam es zu einer erheblichen Störung aller von der BundesIT bereitgestellten Dienste. Die Wiederherstellung wurde, so weit möglich, am 23.12.2016 04:00 abgeschlossen.

Ereignisse

Nach aktuellem Stand der Analysen lässt sich der Ablauf der Störung wie folgt zusammen fassen:

21.12.2016

  • ca 22:30 – 23:30
    Der zentrale HP Switchstack hat Pakete auf LACP Trunk Ports sporadisch verworfen. Dies führte zur Beeinträchtung von div. Datenbank Replikationen.

22.12.2016

  • ab ca 01:00
    Eine Korrupte MAC Tabelle auf einem der Knoten des Switchstacks hatte zur Folge das alle Pakete, unabhängig von Quelle und Ziel, auch über den Inter-Connect des Stacks geleitet wurden. Dadurch wurde dieser zu 100% ausgelastet.
  • ab 02:44
    Erste Ausfälle auf Grund der Überlaust auf dem Switch Inter-Connect treten auf.
  • 04:25
    Der Switchstack hat auf Grund einer defekten VLAN Datenbank den Traffic für das NAS Storage System fehlerhafter Weiße über andere VLANS geleitet. Dies führte zu einem temporären Verlust aller Virtuellen, nicht lokalen HDD’s der Virtuellen System im laufenden Betrieb.

Alle genannten Fehler sind bei HP bekannte und Dokumentierte Bugs der von uns eingesetzten Firmware ( Stand August 2016 ) und wurden in der letzten Firmware, veröffentlicht November 2016, behoben.

Folgen

  • Allgemein
    • Der Verlust der HDD’s sorgte für einen schleichenden Verlust der Verfügbarkeit von allen Diensten
  • Backup
    • Auf Grund des harten Wegfalls der System und Backup-Platten sind die Backup Daten der letzten 48 Stunden korrupt
  • Bundes-Webseite (piratenpartei.de)
    • Die Datenbank ist korrupt und kann nicht restauriert werden
    • Das aktuelle Backup ist korrupt und kann nicht restauriert werden
    • Das Wöchentliche Backup ist auf Grund eines Dateisystemfehlers nicht auffindbar.
      Forensische Maßnahmen wurden begonnen und befinden sich noch in der Umsetzung

Sofortmaßnahmen

  • Alle kritschen Systeme herunter gefahren um weiteren Datenverlust zu vermeiden
  • Analyse des Zustandes vor Ort im Rechenzentrum
  • Update der Switch-Software
  • Restore der Switch-Config
  • Sequentielle Inbetriebnahme aller Systeme
  • Reparatur der Dateisysteme
  • Wiederherstellung von Daten aus Backups sofern möglich

Weiterführende Maßnahmen

  • Forensische Analysen der Dateisysteme um weitere Daten wiederherstellen zu können
  • Kontrolle der Daten-Integrität aller Systeme
  • Wiederaufbau von Backup und Bundes-Webseite

Empfehlungen

Um im Falle eines solch massiven Problems im Bereich der Storage- und Netzwerk-Anbindung die Integrität der Backup gewährleisten zu können ist ein Off-Site Backup zwingend erforderlich. Hierfür sehen wir mehrere Möglichkeiten:

  • Hosting von entsprechenden Maschinen in Landes-ITs ( erste Möglichkeiten wurden bereits ermittelt )
    • Datenschutz gewährleistet
    • Keine Hosting-Kosten ( bei „Backup-Tausch“ )
    • Es fällt ein erhöhter Traffic an, welcher gekauft werden muss
  • Anmietung von Rack-Space an einem anderen Standort des Housing Partners
    • Datenschutz gewährleistet
    • Geringere Traffic-Kosten
    • Volle Kontrolle über Hardware und Systeme, flexible und schnelle Backup/Restore Lösungen möglich.
    • Es fallen Kosten für Housing an
    • Hardware-Kosten

Schadensbericht

Seit einigen Tagen kam es wiederholt zu Problemen bei der Auslieferung von div. Seiten. Vor allem bei den gehosteten WordPress Seiten gab es immer wieder starke Auslieferungsprobleme, auch im Administrations-Backend.

Wir konnten zunächst keine Ursache für diese Probleme ausmachen.

Am Freitag hat sich unser zentraler Switchstack geweigert, Pakete vernünftig weiter zu reichen. Durch einen Reboot konnten wir hier wieder für Entspannung sorgen. Jedoch hielten die Performance Probleme an.

Am Dienstag morgen mussten wir dann einen Totalausfall, von zwei Virtualisierungs-Servern verzeichnen. Ursache hierfür war eine fehlerhafte Firmware, der verbauten RAID Controller.

In einem Vororteinsatz im Rechenzentrum, wurden die Systeme mit neuer Firmware versehen und konnten danach wieder in Betrieb genommen werden. Die Performance-Probleme sind seither spürbar geringer geworden.

Lediglich das Wiki hat sich noch etwas störrig verhalten und ging gegen 22:30 am Dienstag Abend einfach schlafen. Es wurde von uns heute morgen geweckt und steht seit dem unter strenger Beobachtung.

Warum Sympa

Nach unserer Ankündigung Sympa einzusetzen gab es div. Kritikpunkte. Wir werden darum noch einmal diese aufgreifen und begründen warum wir Sympa einsetzen werden:

Sympa kann kein PGP

Ja, kann es nicht. Nach aktuellem Stand wird auf einer von 930 durch die BundesIT gehosteten Listen die Funktionalität überhaupt genutzt. Da SYMPA, wie Mailman, Open Source ist kann natürlich ein Plugin dafür geschrieben werden. Leider fehlen uns dafür die zeitlichen und personellen Ressourcen.

Mailman kann auch Virtual Domains

Nein, nicht wirklich. Ja, ich kann für mehrere Domains Listen anlegen. Allerdings darf ein Listenname nicht mehrfach vorkommen. Also wäre z.B. aktive@kv-a.lists.piratenpartei.de und aktive@lv-b.lists.piratenpartei.de nicht möglich. Die vorhandenen Lösungen erfordern viel administrative Arbeit die wir aktuell personell nicht leisten können. Die Wartezeiten für neue Listen würde sich auf Monate verlängern. Außerdem wäre die Übersicht der vorhandenen Listen für die Nutzer nicht mehr lesbar, der Überblick ginge komplett verloren.

Mailman kann auch DMARC

DMARC ist eine Technologie zur Vermeidung von Phishing Mails. Leider beeinträchtig diese die Funktion von Mailinglisten. Die Software muss Maßnahmen ergreifen damit DMARC geschützte Mails auch über Mailinglisten zugestellt werden können.
Mailman hat hierfür auch Support, das ist richtig. Aber laut der Dokumentation sind nur 3 Einstellungen möglich:

  • ignorieren
  • abweisen
  • Dem Listen-Admin die Wahl überlassen

Zwar kann der Listen-Admin dann die korrekten Einstellungen setzen, aber das Risiko eines Blacklistings, falls irgendein Administrator die notwendigen Änderungen an den Mails nicht mag, und die Funktion deaktiviert, ist zu groß. Dies kann extreme Auswirkungen auf alle Mailinglisten haben.

Aber das stimmt so gar nicht, das geht doch total einfach!

Falls ihr umsetzbare und wartbare Lösungen für diese Probleme habt, könnt ihr uns gerne die Konzepte und HowTo’s zukommen lassen. Via Mail an die BundesIT Liste, kommt in die IT Telko oder veröffentlicht es irgendwo und schickt uns einen Link.

Mailman geht in Rente

Er hat uns viele Jahre treue Dienste geleistet, viele Tausende, ja Millionen an Mails verschickt und Tag und Nacht für die Piraten geschuftet. Nun geht er in seinen wohlverdienten Ruhestand.

In den nächsten Wochen wird Mailman durch eine modernere Software abgelöst werden: Sympa.

Sympa bringt viel Neues mit, was uns die tägliche Administration, und euch das arbeiten mit den Listen einfacher und angenehmer gestalten wird:

  • Virtual Domains
    • Statt kv-hinterhupfingen-aktive@lists.piratenpartei.de kann in Zukunft aktive@lists.hinterhupfingen-piratenpartei.de o.Ä. angeboten werden
  • Persönliche Logins
    • Keine Master-Passwörter mehr für die Listen-Administration
    • Jeder Benutzer kann die ihm zugewiesenen Listen nach Login mit seinen Daten verwalten
  • Listen-Vorlagen
    • Es werden div. Vorlagen für Listen von uns Bereitgestellt, z.B. für Diskussionlisten, Vorstandslisten, …
  • Übersichtlichkeit
  • Schönere Archive
  • u.v.m.

Leider verlässt uns mit Mailman auch ein Feature: Support für PGP verschlüsselte Listen. Diese müssten auf S/MIME umgestellt werden. S/MIME Zertifikate gibt es z.B. kostenlos bei StartSSL.

Wir werden versuchen die Listen schrittweise zu migrieren. Die jeweiligen Listen-Administratoren werden rechtzeitig darüber informiert. Es wird vermutlich kurzzeitig zu Einschränkungen bei den betroffenen Listen kommen, aber auch hierüber informieren wir euch noch mal gesondert.

 

Wir bedanken uns bei Mailman für seine lange und tatkräftige Unterstützung und wünschen im einen erholsamen und erfüllten Ruhestand.

 

Wartungsarbeiten 25.04/26.04.2015

In der Nacht vom 25.04.2015 zum 26.04.2015 werden wir zwischen 23:00 und 4:00 div. Updates für unsere Virtualisierungs-Plattform einspielen. Ausfälle sind nicht zu erwarten.

Clack Overheader: GNU Terry Pratchett

Am 12. März 2015 ist Terry Pratchett, der Autor der Scheibenwelt-Romane, gestorben. Er war wohl einer der größten Schreiber unserer Zeit.

Die BundesIT ehrt Terry Pratchett auf eine ganz besondere Art: In den Scheibenwelt Romanen gibt es eine Technologie, die unserem Internet relativ nahe kommt: Clacks. Wenn Clacks-Operatoren sterben werden ihre Namen auf Ewig im sogenannten „Clacks Overhead“ gehalten.

Aus diesem Grund fügen wir ab sofort in jegliche HTTP Kommunikation folgenden Header ein:

X-Clacks-Overhead: GNU Terry Pratchett

GNU ist ein Clacks Steuercode und steht für:

  • G – pass the message
  • N – do not log
  • U – turn the package at the end of line

Das Trafficserver Plugin welches wir dafür geschrieben haben steht unter GPLv3.

Spendenaufruf: WLAN Hardware BPT

Die BundesIT möchte für den folgenden und zukünftige Parteitage WLAN Equipment kaufen. Bisher wurden für die Parteitage teure WLAN Anlagen gemietet, oder aus privaten Beständen verliehen. Dies ist sowohl logistisch als auch in Bezug auf Haftungsfragen ein Problem.

Das Ziel ist es, eine ausreichende Menge an geeigneten Geräten zu beschaffen, welche dauerhaft für Parteitage, unabhängig von Personen oder Verleihern, bereit stehen.

(mehr …)

Wartungsarbeiten beendet – Überblick

Die Wartungsarbeiten der letzten Tage wurden erfolgreich beendet. Seit Freitag haben wir

  • 4 Hostsysteme mit XenServer neu installiert.
  • über 30 VM’s von Proxmox/KVM auf Xen migriert.
  • div. Netze auf den Switch-Stacks verteilt.
  • einen DNS Server auf ein aktuellers OS gebracht.
  • Firewall-Regeln optimiert.
  • Greylisting Probleme auf dem Piraten Mailcluster behoben.
  • als Reverse-Proxy Squid komplett durch Apache TrafficServer ersetzt.

Außerdem sind in den Tagen davor bereits andere Migrationen erfolgt, wie die Neuinstallation der Jabber-Servers nach einem Totalausfall und Datenverlusten auf der alten KVM Plattform.

Wir gehen davon aus, dass wir durch diese Maßnahmen die Stabilität aller Auftritte und Dienste stark erhöhen konnten.