Start:
Ende (voraussichtlich):
Am 5. September findet ganztägig eine kombinierte Hardware- und Software-Wartung aller HPC-Systeme (einschließlich Dialogserver cshpc, Cluster-Zugangsknoten und aller HPC-Dateisysteme) statt.
Dies betrifft sowohl die NHR-Systeme (Alex+Fritz) als auch die HPC-Systeme für die Grundversorgung von FAU & Region (Woody/Woody-NG, Emmy, Meggie, TinyGPU, TinyFAT, Testcluster).
Spezielle Hinweise:
- Nach der Wartung werden in „Woody“ nur noch wenige w11xx-Knoten bis Mitte September zur Verfügung stehen. Wechseln Sie jetzt bereits auf „Woody-NG„ mit AlmaLinux8.
- Die Zahl der Rechenknoten in „Emmy“ wurde aus Energiespargründen bereits signifikant reduziert. Die noch verbliebenen Knoten werden Mitte September auch abgeschaltet und Emmy als Ganzes nach 9 Jahren Betrieb stillgelegt. Sichern Sie bis dahin ggf. noch vorhandene Daten auf dem parallelen Dateisystem von Emmy ($FASTTMP), da nach Mitte September kein Zugriff mehr auf die Daten möglich sein wird.
- Die verbliebenen Rechenknoten mit Nvidia GTX1080/1080Ti GPUs im PBS-Teil von TinyGPU werden Mitte September dauerhaft stillgelegt. Wechseln Sie auf den Slurm-Teil von TinyGPU.
- „Meggie“ wird in der gesamten Woche vom 5.-11.9. nicht zur Verfügung stehen, da ein Betriebssystem-Upgrade von CentOS7 auf AlmaLinux8 vorgenommen wird.
Bis zum Beginn der Wartung kann die neue Betriebssystemumgebung über den temporären Zugangsknotenmeggie8.rrze.uni-erlangen.de
bereits getestet werden.
Ausblick:
Bei Verschärfung der Energiekrise ist damit zu rechnen, dass der Betrieb der HPC-Systeme als erstes eingeschränkt werden muss.
Am 5.9. durchgeführte Arbeiten:
- Integration aller Woody-Knoten außer w11xx (8 GB/Haswell) in Woody-NG
- Jobs die in Woody noch auf andere Knotentypen gewartet haben, wurden gelöscht
- OS-Upgrade „woody3“ von Ubuntu 18.04 auf Ubuntu 20.04
- OS-Upgrade „memoryhog“ von Ubuntu 18.04 auf Ubuntu 20.04
- (temporärer) Umzug /home/woody von Fileserver wnfs1 auf janus
- das Kopieren der 160 Millionen Dateien im Hintergrund hat rund zwei Wochen gedauert und wurde planmäßig im Laufe des Sonntags fertig!
- Umzug der WORK-Daten einiger NHR-Accounts von /home/woody nach /home/atuin
- FW-Updates diverser Netzwerkswitches
- FW-Updates Fileserver saturn und titan
- OS-Upgrade Fileserver saturn und titan
- OS-Upgrade hpc-mover
- Umzug von /apps für Woody-PBS, TinyGPU-PBS, Tiny*-Slurm von Fileserver wnfs1 auf wadm2
- kleinere Updates + Reboot des GPFS-Storageclusters
- kleinere Updates und Reboots auf diversen HPC-Clustern
Batchprocessing auf Fritz, TinyFAT/Slurm, TinyGPU/Slurm, TinyGPU/PBS, Woody und Woody-NG wurde vor 19 Uhr wieder aufgenommen. Alex ist seit ca. 19:30 wieder in Betrieb.
Die Aktualisierung der Dokumentation auf https://hpc.fau.de/systems-services/documentation-instructions/ steht zum Teil noch aus.
Die Umstellung des Parallelrechners Meggie von CentOS7 auf AlmaLinux8 wurde begonnen und wird im Laufe der Woche abgeschlossen werden.
Am 18.9. werden noch erfolgen:
- Abschaltung der letzten Emmy-Knoten; Emmy ist dann Geschichte
- Abschaltung w11xx in Woody; Woody ist dann Geschichte
- Abschaltung der verbliebenen Rechenknoten mit Nvidia GTX1080/1080Ti GPUs im PBS-Teil von TinyGPU; TinyGPU-PBS ist dann Geschichte
Betroffene Bereiche: alle HPC-Systeme
Kontakt: Hochleistungsrechnen / High Performance Computing (HPC)