Am RRZE laufen zu viele Systeme, um jedes einzeln im Blick zu behalten. Deshalb wird Monitoring betrieben, um einen sicheren Betrieb zu gewährleisten und auf Ausfälle schnell reagieren zu können.
Ob ein Rechner funktioniert oder abgestürzt ist, sieht man meist live, weil man ihn gerade nutzt. Doch woran merkt man, dass ein Server im Serverraum seine Arbeit nicht mehr erledigt? Heimlich still und leise könnte er sich verabschieden, sogar über Tage unbemerkt – wenn es kein Monitoring gäbe.
Unter Monitoring versteht man die dedizierte Überwachung von IT-Systemen, ganz egal ob Software oder Hardware. Das gewährleistet einen reibungslosen Betrieb und leistet zugleich einen Beitrag zur IT-Sicherheit. Drohende Ausfälle oder größere Systemausfälle fallen somit schnell auf. Am Regionalen Rechenzentrum Erlangen (RRZE) sind fast 1.000 Hosts mit rund 4.000 Services in das Monitoringsystem integriert. Ein Host ist dabei die Hardware, also der Server selbst. Ein Service ist der Dienst, der auf dem Host läuft. Nicht in das Monitoring integriert sind zum Beispiel Testsysteme. „Testsysteme brauchen wir nicht überwachen, die sind ja nur dafür da, um Systeme zu testen und auch nicht am öffentlichen Netzwerk angeschlossen“, erklärt Uwe Scheuerer, Systemadministrator, der das Monitoringsystem betreut.
Automatisierte Warnmeldungen
Am RRZE wird ein automatisiertes Monitoringsystem eingesetzt. Dieses ist deshalb vorteilhaft, weil nicht rund um die Uhr jemand einen Blick darauf haben muss, sondern weil es automatisch Warnmeldungen herausschickt. Dabei gibt es für Services neben dem Status 0 „alles in Ordnung“ noch drei weitere Status: 1: Warning, 2: Critical oder 3: Unknown „Beim Status Warning“, sagt Scheuerer, „hat zum Beispiel eine Festplatte nur noch wenig Platz frei und der Administrator wird sicherheitshalber schon einmal informiert. Bei Critical ist so wenig Plattenplatz verfügbar, dass der weitere Betrieb gefährdet oder gar unmöglich werden könnte. Unknown, kann bedeuten, dass der Plattenplatz derzeit nicht abgefragt werden kann und das Monitoring keinen sicheren Status melden kann.
Bei der Hardware gibt es nur drei Status: Up – der Server läuft –, down – der Server antwortet nicht – und unknown. Bei letzterem ist der Server nicht erreichbar, da er von einem aktuell nicht erreichbaren anderen Server abhängig ist. „Das gibt es zum Beispiel bei Virtuellen Maschinen, die nicht laufen können, wenn die physischen Server ausgefallen sind.“
Je nachdem, welchen Status der Server oder Dienst hat, schickt das System eine Benachrichtigung an die zuständigen Administratoren des jeweiligen Systems. Scheuerer oder seine Kollegen können somit in Echtzeit auf Ausfälle reagieren. „Wenn ich zum Beispiel merke, dass einige Server ausgefallen sind, und ich weiß, dass diese von einem anderen System abhängig sind, kann ich in der Fachabteilung gezielt nachfragen.“ Und auch bei der Lösung ist das Monitoringsystem denkbar einfach: Per Knopfdruck kann die Fachabteilung mitteilen, dass sie sich darum kümmert. Bleibt die Nachricht aus, wird ebenfalls gezielt nachgefragt.
Warnmeldungen vom Monitoringsystem gibt es viele. „Ich mache das seit 18 Jahren und habe zum Glück erst zwei größere Ausfälle und Alarmierungen auslösen müssen; beide Male während der Betriebsschließungen in der Weihnachtszeit.“ Bei größeren Ausfällen läuft eine entsprechende Alarmkette an. „Nur weil ein System ausfällt, muss ich ja nicht alles in Bewegung setzen, aber ab einer gewissen Größenordnung haben wir klar geregelt, wer zusätzlich informiert werden muss.“
Text: Corinna Russow