Status 0

Am RRZE laufen zu viele Systeme, um jedes einzeln im Blick zu behalten. Deshalb wird Monitoring betrieben, um einen sicheren Betrieb zu gewährleisten und auf Ausfälle schnell reagieren zu können.

Ob ein Rechner funktioniert oder abgestürzt ist, sieht man meist live, weil man ihn gerade nutzt. Doch woran merkt man, dass ein Server im Serverraum seine Arbeit nicht mehr erledigt? Heimlich still und leise könnte er sich verabschieden, sogar über Tage unbemerkt – wenn es kein Monitoring gäbe.

Unter Monitoring versteht man die dedizierte Überwachung von IT-Systemen, ganz egal ob Software oder Hardware. Das gewährleistet einen reibungslosen Betrieb und leistet zugleich einen Beitrag zur IT-Sicherheit. Drohende Ausfälle oder größere Systemausfälle fallen somit schnell auf. Am Regionalen Rechenzentrum Erlangen (RRZE) sind fast 1.000 Hosts mit rund 4.000 Services in das Monitoringsystem integriert. Ein Host ist dabei die Hardware, also der Server selbst. Ein Service ist der Dienst, der auf dem Host läuft. Nicht in das Monitoring integriert sind zum Beispiel Testsysteme. „Testsysteme brauchen wir nicht überwachen, die sind ja nur dafür da, um Systeme zu testen und auch nicht am öffentlichen Netzwerk angeschlossen“, erklärt Uwe Scheuerer, Systemadministrator, der das Monitoringsystem betreut.

Automatisierte Warnmeldungen

Am RRZE wird ein automatisiertes Monitoringsystem eingesetzt. Dieses ist deshalb vorteilhaft, weil nicht rund um die Uhr jemand einen Blick darauf haben muss, sondern weil es automatisch Warnmeldungen herausschickt. Dabei gibt es für Services neben dem Status 0 „alles in Ordnung“ noch drei weitere Status: 1: Warning, 2: Critical oder 3: Unknown „Beim Status Warning“, sagt Scheuerer, „hat zum Beispiel eine Festplatte nur noch wenig Platz frei und der Administrator wird sicherheitshalber schon einmal informiert. Bei Critical ist so wenig Plattenplatz verfügbar, dass der weitere Betrieb gefährdet oder gar unmöglich werden könnte. Unknown, kann bedeuten, dass der Plattenplatz derzeit nicht abgefragt werden kann und das Monitoring keinen sicheren Status melden kann.

Bei der Hardware gibt es nur drei Status: Up – der Server läuft –, down – der Server antwortet nicht – und unknown. Bei letzterem ist der Server nicht erreichbar, da er von einem aktuell nicht erreichbaren anderen Server abhängig ist. „Das gibt es zum Beispiel bei Virtuellen Maschinen, die nicht laufen können, wenn die physischen Server ausgefallen sind.“

Je nachdem, welchen Status der Server oder Dienst hat, schickt das System eine Benachrichtigung an die zuständigen Administratoren des jeweiligen Systems. Scheuerer oder seine Kollegen können somit in Echtzeit auf Ausfälle reagieren. „Wenn ich zum Beispiel merke, dass einige Server ausgefallen sind, und ich weiß, dass diese von einem anderen System abhängig sind, kann ich in der Fachabteilung gezielt nachfragen.“ Und auch bei der Lösung ist das Monitoringsystem denkbar einfach: Per Knopfdruck kann die Fachabteilung mitteilen, dass sie sich darum kümmert. Bleibt die Nachricht aus, wird ebenfalls gezielt nachgefragt.

Warnmeldungen vom Monitoringsystem gibt es viele. „Ich mache das seit 18 Jahren und habe zum Glück erst zwei größere Ausfälle und Alarmierungen auslösen müssen; beide Male während der Betriebsschließungen in der Weihnachtszeit.“ Bei größeren Ausfällen läuft eine entsprechende Alarmkette an. „Nur weil ein System ausfällt, muss ich ja nicht alles in Bewegung setzen, aber ab einer gewissen Größenordnung haben wir klar geregelt, wer zusätzlich informiert werden muss.“

Text: Corinna Russow

Name	Standard-Cookie
Anbieter	Eigentümer dieser Website
Zweck	Speichert die Einstellungen der Besucher, die in der Consent-Banner ausgewählt wurden.
Datenschutzerklärung	https://www.rrze.fau.de/datenschutz/
Hosts	www.rrze.fau.de
Cookie Name	rrze-legal-consent
Cookie Laufzeit	1 Jahr

Name	WordPress
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Teste, ob ein Cookie gesetzt werden kann. Benutzersitzung speichern.
Datenschutzerklärung	https://www.rrze.fau.de/datenschutz/
Hosts	.www.rrze.fau.de
Cookie Name	wordpress_[*]
Cookie Laufzeit	Session

Name	SimpleSAML
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Dient zur Verwaltung des WebSSO-Sitzungsstatus.
Datenschutzerklärung	https://www.rrze.fau.de/datenschutz/
Hosts	www.rrze.fau.de
Cookie Name	SimpleSAMLSessionID,SimpleSAMLAuthToken
Cookie Laufzeit	Session

Name	PHPSESSID
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Bewahrt den Status der Benutzersitzung über Seitenanfragen hinweg.
Datenschutzerklärung	https://www.rrze.fau.de/datenschutz/
Hosts	www.rrze.fau.de
Cookie Name	PHPSESSID
Cookie Laufzeit	Session

Name	RSVP
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Dient zur Verwaltung des RSVP-Sitzungsstatus.
Datenschutzerklärung	https://www.rrze.fau.de/datenschutz/
Hosts	www.rrze.fau.de
Cookie Name	rrze_rsvp
Cookie Laufzeit	Session

Akzeptieren	Siteimprove Analytics
Name	Siteimprove Analytics
Anbieter	Rosenheimer Str. 143 C, 81671 München, Deutschland
Zweck	Wird verwendet, um die Nutzung der Website durch den Besucher zu erfassen.
Datenschutzerklärung	https://www.siteimprove.com/privacy/privacy-policy/
Hosts	siteimprove.com
Cookie Name	nmstat
Cookie Laufzeit	1000 Tage

Akzeptieren	YouTube
Name	YouTube
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Zweck	Wird verwendet, um Youtube-Inhalte zu entsperren.
Datenschutzerklärung	https://policies.google.com/privacy?hl=en&gl=en
Hosts	google.com, youtube.com, youtube-nocookie.com
Cookie Name	NID
Cookie Laufzeit	6 Monate

Akzeptieren	Slideshare
Name	Slideshare
Anbieter	Scribd, Inc., 460 Bryant St, 100, San Francisco, CA 94107-2594 Vereinigten Staten
Zweck	Wird verwendet, um Slideshare-Inhalte zu entsperren.
Datenschutzerklärung	https://www.slideshare.net/privacy
Hosts	www.slideshare.net
Cookie Name	__utma
Cookie Laufzeit	2 Jahre