Seitenanfang

Großkampftag

Dieser Post wurde aus meiner alten WordPress-Installation importiert. Sollte es Darstellungsprobleme, falsche Links oder fehlende Bilder geben, bitte einfach hier einen Kommentar hinterlassen. Danke.


Ich habe heute etwa eine halbe Stunde planmäßig gearbeitet. Hört sich toll an oder nicht? Wäre es auch gewesen, wenn sich die restlichen knapp 11,5 Stunden nicht mit einer unvorstellbaren Flut an Katastrophen gefüllt hätten.

Morgens, kurz vor 6:00 Uhr: Aufstehen, Computer einschalten, Mails und Tickets checken, alles wie immer. Oh, da liegt ein neues Ticket aus Asien rum, Statistiken werden nicht aktualisiert. Um diese Zeit bin ich noch der Einzige der reagieren kann und so schaue ich halt schnell mal auf die Datenbank... Asien sieht in Ordnung aus, Europa auch, aber in Amerika stockt es gewaltig. Die Statistik, die Asien fehlt, arbeitet sich mit der bahnbrechenden Geschwindigkeit von einem Datensatz pro 3 Sekunden durch die Datenbank. Das Land auf das sich das Ticket bezog wird erst nach dem Land verarbeitet, in dem ein eigentlich 5-Minuten-Job seit einigen Stunden hängt.

Damit war der Morgen so ziemlich erledigt, auch die tägliche Pause von kurz vor bis kurz nach 7:00 um Bea für die Schule fertig zu machen fiel so kurz wie möglich aus. Datenbank reanimiert, Statistiken abgeschossen - lassen sich später nachberechnen und sind nicht so dramatisch wichtig, auch wenn die User das vermutlich anders sehen - und geschaut was sonst noch kaputt ist. Wenigstens kam jetzt Hilfe, denn einer der (eigentlichen) Datenbankadmins zeigte sich kurz im Chat - sein Fehler, ich glaube so gegen 11:00 oder 12:00 Uhr konnte er sich dann endlich fertig machen und ins Büro fahren.

Bis dahin reihte sich ein Notfall an den nächsten. Die Datenbanken liefen gerade wieder halbwegs, da kam das nächste Problem auf, also dort angesetzt und geflickt, leider startet der Statistikjob jede Stunde und wenn man nur die Folgen und nicht die Ursachen beseitigt... sagen wir einfach: Bis Mittags mussten noch einige Jobs sterben weil ich schlichtweg keine Zeit für weitere Fehlerbehebung hatte. Wie wichtig die Statistik ist, zeigte sich in den Folgetickets, denn wenn ich mich nicht irre gab es nur zwei weitere Beschwerden :-)

Irgendwann hab ich dann die Ursache des Statistikproblems kurz zwischendurch beseitigt, nur um eine Stunde später festzustellen, dass die neue Lösung zwar wesentlich effizienter arbeitet, aber dafür andere Stellen der Datenbank sprengt, diesmal mit heftigeren Auswirkungen. Also noch ein paar Schrauben gedreht, das Ticket an den eigentlichen Verursacher - einen User - immer höher priorisiert, auch wenn er zu dem Zeitpunkt zeitzonenbedingt noch gar nicht im Büro war.

Wer von mir oder einigen ähnlich ausgelasteten Kollegen etwas wollte, musste mindestens ein Anliegen der Priorität "Weltuntergang" haben, alles darunter wurde einfach zurückgestellt. Komischerweise häuften sich unterschiedliche Probleme gleicher Priorität bei unterschiedlichen Leuten. Warum crashed eigentlich immer alles gleichzeitig unabhängig voneinander?

Letztendlich hab ich es doch noch geschafft, die beiden Links samt Funktion in ein Tool einzubauen, die ich unbedingt haben wollte (auch weil sie die Bearbeitung der Flut wesentlich vereinfachen), das war die halbe Stunde Arbeit, in der ich tatsächlich etwas machen konnte, dass schon am Vortag bekannt und eingeplant war.

Noch etwas positives ist zu berichten: Ausgerechnet zum Chaostag ging ein neues Programm in den Livebetrieb. Seine Aufgabe liegt in der Verarbeitung und Aufbereitung von allen möglichen Warnungen, Fehlermeldungen und automatischen Emails und ich wollte es eigentlich langsam testen... Soweit zumindest die Theorie. Es wurde regelrecht bombardiert, von allen Seiten kam immer mehr rein - aber es hat die ungeplante Feuertaufe mit Bravour bestanden: Kein Crash, kein Datenverlust, nur minimale Probleme und reichlich Ideen für weitere Features, die die Arbeit einfacher und schneller machen.

Jetzt ist Feierabend und zwar überraschender Weise nicht nur wegen der Uhrzeit, sondern die Probleme sind abgeebbt. Wir haben für alles akute nicht nur die Auswirkungen beseitigt und Notfalllösungen gebastelt, sondern konnten weitgehend die Ursachen beseitigen oder zumindest mit Workarounds umgehen. Gerade habe ich meinen für heute letzten Blick auf den Statusmonitor geworfen: Alles ist grün. Nicht nur einfach akzeptabel, sondern wirklich makellos. Ein Problem ist allerdings einfach spurlos verschwunden, genau so wie es aufgetaucht ist.  Ich werde morgen nochmal auf die Jagd gehen müssen, mal schauen wie gut es sich versteckt.

Versteht mich nicht falsch, dies soll kein Beschwerdepost sein. Ich habe absolut nichts gegen solche Tage, wenn sie in ausreichenden Abständen kommen. Immer Adrenalin im Blut, ein permanentes leistungsförderndes Stresslevel und Abends erschöpft ins Bett fallen, mit dem Wissen, heute mal wieder das Chaos besiegt zu haben, denn...

[youtube]http://www.youtube.com/watch?v=nbcHJpSIxBk[/youtube]

 

Noch keine Kommentare. Schreib was dazu

Schreib was dazu

Die folgenden HTML-Tags sind erlaubt:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>