In den letzten Wochen gab es vermehrt ungereimtheiten mit unserem Server, auf dem auch der Blog hier läuft.
Nachdem der Apache sporadisch abstürtze ohne eine Logeintrag zu hinterlassen und den Prozess nicht zu beenden, habe ich einmal den kompletten Turnus abgearbeitet. Also Logfiles prüfen ob evtl. eine DDoS Attacke oder DoS mit unbekannten Fehler auf den Server lief, ein Neustart damit der Arbeitsspeicher mal wieder richtig frisch ist und neu belegt werden kann, das alles half nichts. Als Workaround habe ich den Apachen alle paar Stunden per Cron neustarten lassen.
Zwischenzeitlich segnete auch unser Backupserver das Zeitliche, der Provider sah es nicht ein das der Arbeitsspeicher defekt sei, obwohl ich die Ausgabe von memtest86+ als Screenshot als beweis hatte. Ergo: Server gekündigt und auf den Weg gemacht einen neuen Server zu finden und einzurichten. Murpheys Law sollte sich allerdings bewahrheiten.
Zwischenzeitlich hatte ich Gesundheitliche Probleme und konnte nichtmal mehr denken. Also fiel es erstmal flach einen der Beta Vserver von EUServ als Backup einzurichten. Das ganze hat das Problem das wir von zwei Grundverschiedenen möglichkeiten reden. Während ich mit einem anderen Dedizierten Server und GFS ein sehr sicheres HA (High availability) hinbekomme geht das mit dem VServer nicht da die Kernel Module fehlen.
Als ich Gesundheitlich wieder Fit war habe ich allerdings Angefangen erstmal die Daten der Server zu sichern. Das hatte ein Problem: Die Festplatte hatte "schluckauf" und schickte auch mal fehlerhafte Daten wie ich am Donnerstag feststellen musste. Warum, das kam heute endlich raus.
Die Dateien waren also da, allerdings mit Datenmüll gefüllt zum Teil. Ok, kein Problem, man hat ja mehrere Backups.
Jetzt passierte allerdings das unabdingbar schlimmste was passieren kann: Mittwoch fiel der komplette Server aus um ca. 10:30 Uhr als mich eine Kundin anrief. Also schnell die Mittagspause in der Bank vorverlegt und nachgesehen was ist. Auch der Versuch Ihn zu reanimieren schlug fehl. In den letzten Tagen hatte ich alle Komponenten geprüft die ich prüfen konnte: CPU, Speicher, Mainboard, sogar die Festplatte. Aber das Netzteil war nicht dabei -.-
Eine kleine Überspannung hat gereicht um den Server völlig vom Netz zu kicken. Die letzten Logfile Einträge die ich sah waren:
May 20 10:01:42 athen098 kernel: hda: drive_cmd: error=0x04 { DriveStatusError }
May 20 10:02:07 athen098 kernel: spurious 8259A interrupt: IRQ7.
May 20 10:13:50 athen098 kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
May 20 10:13:50 athen098 kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
May 20 10:18:04 athen098 kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
May 20 10:18:04 athen098 kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
Mein erster Gedanke war: Oh holy shit, die Festplatte hat die biege gemacht. Ein Gespräch mit dem Provider war erstmal nicht berauschend, man bot mir nur an die Platte für 156 Euro zu spiegeln ohne Gewährleistung das es funktioniert. Das es auch etwas anderes sein kann als die Festplatte wollte keiner hören :´(
Aber ich hatte Recht

Der Fehler passiert z.B. wenn
- das IDE Kabel defekt ist (ja das gibt es)
- die Stromversorgung (lest Netzteil) Probleme macht
- der Mainboard IDE Controller defekt ist
- die Festplatte wirklich den Geist aufgibt
Die Festplatte den Geist aufgeben? Die ist doch via smartctl überwacht Mensch. Kann nicht sein. Aber naja, wollte keiner hören und der Fehler war die Festplatte. Auf einfache bitten doch den Server vor Ort ein Hardwarecheck zu unterziehen wurde nicht eingegangen.
Zwischenzeitlich musste ich den EUServ Vserver komplett von der Pieke auf einrichten damit die Mails wenigstens wieder liefen, also eine Stunde früher aus der Bank raus (danke Ralf das du mich gelassen hast

). Was man also in mehrere Tagen Arbeit in Ruhe macht, musste ich in wenigen Stunden schaffen. Serverdienste Installieren, Konfigurieren (größtenteils aus dem Kopf), die ganzen Spamschutze rudimentär hinbekommen, den Server absichern das sich da keiner vergreift. Der Spieleplanet Server hatte vor einigen Wochen ein Problem das es unmöglich machte den Server dafür zu missbrauchen, der wird demnächste eine neuinstallation bekommen

Aber erstmal den GAU hier lösen.
Um 21:00 Uhr war dann allerdings alles im Grünen Bereich und die wichtigsten Domains liefen auf dem Server. Zeit fürs Bett
Donnerstag erstmal den Schock überwunden und nochmal mit dem Provider gesprochen, und zwischenzeitlich auch die möglichkeiten durchdacht die ich hatte und was die beste Variante wäre wenn ich den Server neu aufsetzen müsste.
Heute am Abend haben wir einen sehr netten Herren bei unserem Provider ans Telefon bekommen der uns Anbot den Server in die Rescue Console zu schicken damit wir die Platte nochmal sichern können und prüfen. Das hatte ich allerdings schonmal versucht am Mittwoch, das lief nicht. Erster Gedanke "Shit, die Platte ist hin und im Post hängt der Server".
Naja, gesagt getan, prima Sache dachten Cliff und ich.
Also noch ein Kaffee getrunken um 19:00 Uhr, dann die Mail mit dem Rescue Passwort runtergesendet und versucht einzuloggen. Timeout mit der SSH. Ähm, ping war auch negativ. Also durchgerufen, wieder den netten Herren dranbekommen, gesagt das der Server nicht anpingbar ist. Er prüfte es, und informierte die Kollegen im Rechenzentrum.
Dann war er endlich im Rescuemode, aber keine Antwort via Ticket. Naja, egal, alle Partitionen eingehängt und siehe da, alles sauber, keine Fehler beim mounten. Ok, ab ins chroot, alles geprüft, Logfiles kontrolliert, nur die Meldungen mit dem DMA Fehler. Allerdings kann ja dieser Fehler auch was anderes sein und der Fehler war noch vom 20.5.2009.
Ein md5sum ergab: Alles Systemdateien sind OK. Die Platte kann keine defekten Sektoren haben.
Zur Sicherheit auf einen anderen Server ein volles Plattenbackup mit rsync gemacht, inkl. Kopie des MBR wenn wir diesen in die neue Festplatte einspielen müssen (bzw. Teile).
2 Stunden lief die Festplatte mit rsync, keine Probleme keine Fehler. Nochmal ins Ticketsystem gekuckt vom Provider, da lag eine Antwort.
Man(n) halte sich fest:
Das Netzteil war defekt!!
Durch Spannungsschwankungen und dem alter hat es das Netzteil einfach gegrillt. Also volle Entwarnung, die Platte läuft anscheinend einwandfrei. Die Smartwerte sind allerdings jetzt ausserhalb der Lebensdauer durch die Maximalwerte, also kein guter Indikator für einen Drohenden Plattencrash.
Jetzt geht es weiter auf der Suche nach einem anständigen Zweitserver mit Raid1 der die Aufgabe der Sicherung und HA übernimmt. Hätten wir nicht die Probleme mit dem alten Backup Server gehabt, wäre das einfach nur das umändern von ein paar DNS Einträge und starten der Dienste gewesen. Das wird jetzt auch das Ziel, noch so eine Aktion würde ich wahrscheinlich nicht überleben.
So, jetzt bin ich seit 21.5.2009 3:00 Uhr auf den Beinen und konnte nicht schlafen, rechnet euch aus wie lange ich an dem Problem gesessen habe

Mit einer Seriellen Konsole wäre das einfacher gewesen
Naja, fakt ist: Alles läuft wieder, wir haben ein aktuelles Backup das nicht zerschossen ist, alle Mails laufen wieder vollkommen Problemlos rein. fast 6 Jahre ohne Zwischenfälle lief er nun, dass das erste Problem allerdings so einen gewaltigen GAU verursacht hätten wir uns im Leben nicht träumen lassen

So, ab ins Bett, ist schon spät und es ist Wochenende .... und die Kidds von mein Bruder haben anscheinend eine Mandelentzündung
Eiskaffee.schlürf
MFG
Lordi