Warnung

[Beendet] Wartungsarbeiten an den HPC-Systemen am 5.9.2022 / Außerbetriebnahme von HPC-Systemen ab Mitte September

Die Wartung wurde am 5. September 2022 um 19:30 Uhr beendet.

Start:

Ende (voraussichtlich):

Am 5. September findet ganztägig eine kombinierte Hardware- und Software-Wartung aller HPC-Systeme (einschließlich Dialogserver cshpc, Cluster-Zugangsknoten und aller HPC-Dateisysteme) statt.

Dies betrifft sowohl die NHR-Systeme (Alex+Fritz) als auch die HPC-Systeme für die Grundversorgung von FAU & Region (Woody/Woody-NG, Emmy, Meggie, TinyGPU, TinyFAT, Testcluster).

Spezielle Hinweise:

  • Nach der Wartung werden in „Woody“ nur noch wenige w11xx-Knoten bis Mitte September zur Verfügung stehen. Wechseln Sie jetzt bereits auf „Woody-NG mit AlmaLinux8.
  • Die Zahl der Rechenknoten in „Emmy“ wurde aus Energiespargründen bereits signifikant reduziert. Die noch verbliebenen Knoten werden Mitte September auch abgeschaltet und Emmy als Ganzes nach 9 Jahren Betrieb stillgelegt. Sichern Sie bis dahin ggf. noch vorhandene Daten auf dem parallelen Dateisystem von Emmy ($FASTTMP), da nach Mitte September kein Zugriff mehr auf die Daten möglich sein wird.
  • Die verbliebenen Rechenknoten mit Nvidia GTX1080/1080Ti GPUs im PBS-Teil von TinyGPU werden Mitte September dauerhaft stillgelegt. Wechseln Sie auf den Slurm-Teil von TinyGPU.
  • Meggie“ wird in der gesamten Woche vom 5.-11.9. nicht zur Verfügung stehen, da ein Betriebssystem-Upgrade von CentOS7 auf AlmaLinux8 vorgenommen wird. Bis zum Beginn der Wartung kann die neue Betriebssystemumgebung über den temporären Zugangsknoten meggie8.rrze.uni-erlangen.de bereits getestet werden.

Ausblick:

Bei Verschärfung der Energiekrise ist damit zu rechnen, dass der Betrieb der HPC-Systeme als erstes eingeschränkt werden muss.

 

Am 5.9. durchgeführte Arbeiten:

  • Integration  aller Woody-Knoten außer w11xx (8 GB/Haswell) in Woody-NG
    • Jobs die in Woody noch auf andere Knotentypen gewartet haben, wurden gelöscht
  • OS-Upgrade „woody3“ von Ubuntu 18.04 auf Ubuntu 20.04
  • OS-Upgrade „memoryhog“ von Ubuntu 18.04 auf Ubuntu 20.04
  • (temporärer) Umzug /home/woody von Fileserver wnfs1 auf janus
    • das Kopieren der 160 Millionen Dateien im Hintergrund hat rund zwei Wochen gedauert und wurde planmäßig im Laufe des Sonntags fertig!
  • Umzug der WORK-Daten einiger NHR-Accounts von /home/woody nach /home/atuin
  • FW-Updates diverser Netzwerkswitches
  • FW-Updates Fileserver saturn und titan
  • OS-Upgrade Fileserver saturn und titan
  • OS-Upgrade hpc-mover
  • Umzug von /apps für Woody-PBS, TinyGPU-PBS, Tiny*-Slurm von Fileserver wnfs1 auf wadm2
  • kleinere Updates + Reboot des GPFS-Storageclusters
  • kleinere Updates und Reboots auf diversen HPC-Clustern

Batchprocessing auf Fritz, TinyFAT/Slurm, TinyGPU/Slurm, TinyGPU/PBS, Woody und Woody-NG wurde vor 19 Uhr wieder aufgenommen. Alex ist seit ca. 19:30 wieder in Betrieb.

Die Aktualisierung der Dokumentation auf https://hpc.fau.de/systems-services/documentation-instructions/ steht zum Teil noch aus.

 

Die Umstellung des Parallelrechners Meggie von CentOS7 auf AlmaLinux8 wurde begonnen und wird im Laufe der Woche abgeschlossen werden.

 

Am 18.9. werden noch erfolgen:

  • Abschaltung der letzten Emmy-Knoten; Emmy ist dann Geschichte
  • Abschaltung w11xx in Woody; Woody ist dann Geschichte
  • Abschaltung der verbliebenen Rechenknoten mit Nvidia GTX1080/1080Ti GPUs im PBS-Teil von TinyGPU; TinyGPU-PBS ist dann Geschichte

Betroffene Bereiche: alle HPC-Systeme

Kontakt: Hochleistungsrechnen / High Performance Computing (HPC)