Bessere Untertitel durch KI

Mithilfe von Künstlicher Intelligenz hat ein Team des Regionalen Rechenzentrums Erlangen und des Zentrums für Nationales Hochleistungsrechnen Erlangen automatisch generierte Untertitel für Videos erstellen lassen. Diese sind weniger fehleranfällig als bisherige Lösungen. Dadurch können nun alle Menschen in gleicher Weise an Vorlesungen teilhaben.

Fast 80 Vorlesungsaufzeichnungen und Livestreams wurden pro Woche an der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) im Wintersemester 2022/23 über das hauseigene Videoportal aufgezeichnet. Die automatische Untertitelung der Videos war bisher aufgrund der Fachwörter aus den verschiedensten Bereichen wie unter anderen Chemie, Medizin und Philosophie fehleranfällig; die manuelle Korrektur jedoch sehr zeitaufwendig. Zahlreiche Menschen hatten deshalb nur schweren Zugang zu Vorlesungsaufzeichnungen und konnten deshalb kaum teilhaben.

Ein Team des Regionalen Rechenzentrums Erlangen (RRZE) hat nun eine Software so angepasst, dass Videos zuverlässig mit Untertiteln versorgt werden können – dank der Unterstützung des Zentrums für Nationales Hochleistungsrechnen Erlangen (NHR@FAU) sogar ganz automatisch. Sogar das bereits bestehende Videomaterial von etwa 40.000 Stunden konnte mithilfe der Künstlichen Intelligenz und des Hochleistungsrechners „Alex“ innerhalb eines Tages mit Untertiteln versorgt werden. Und das Beste daran: Die Fehlerquote ist nur halb so hoch wie mit anderen Systemen. Selbst die wissenschaftlichen Begriffe transkribiert die verwendete Software sehr gut. Das Team des RRZE und des NHR@FAU verwendete dafür die Open-Source-Software Whisper von OpenAI und entwickelte eine passgenaue Schnittstelle für das unieigene Videoportal, damit die Videos automatisch beim Upload mit Untertiteln versorgt werden.

Vier Tage Anpassung für Open-Source-Software

Whisper ist eine künstliche Intelligenz von OpenAI, die mit zahlreichen Audiodateien trainiert wurde, sodass sie Sprache sehr zuverlässig erkennen und transkribieren kann. Die Anpassungen der KI an die Bedarfe der FAU für diese enorme Erleichterung dauerte nur vier Tage.

Das ist ein großer Schritt hin zu einer barrierefreien Universität. Denn durch die zuverlässige Untertitelung können Gehörlose und hörgeschädigte Studierende gleichermaßen an den Vorlesungen teilhaben, ohne dass dabei durch fehlerhafte Untertitel Inhalte verloren gehen. Ebenso profitieren auch Menschen ohne ausreichende Deutschkenntnisse von den neuen Untertiteln. „Das neue System ist um ein Vielfaches besser als das alte“, erklärt Stefanos Georgopoulos. Er ist Mitarbeiter am RRZE und Entwickler des FAU-Videoportals. „Whisper erkennt, wenn man eine Frage stellt und setzt entsprechend ein Fragezeichen, das hat das alte System nicht.“ Fehler, die die KI noch macht, seien Kleinigkeiten, die den Sinn jedoch nicht entstellen.

Fünfmal weniger Energieverbrauch als bei manueller Transkription

Die Transkription hätte auch ein normaler Rechner geschafft, jedoch hätte dies länger gedauert. „Durch unsere Optimierungen konnten wir die Transkription ressourcen- und energieeffizient von unserem Hochleistungsrechner Alex machen lassen“, sagt Thomas Zeiser, Mitarbeiter im NHR@FAU.

Ein Teil des NHR-Rechnerverbundes Alex brauchte für die über 40.000 Stunden Videomaterial nur einen Tag. Im Vergleich dazu hätte ein Mensch für die manuelle Transkription des vorhandenen Materials 36,5 Jahre gebraucht. „Alex nutzte dabei 2.500 Stunden Rechenzeit auf modernen Hochleistungs-Grafikkarten. Der Energieverbrauch entspricht etwa dem eines Ein-Personen-Haushalts über ein Jahr. Für 36,5 Jahre menschlicher Transkriptionsarbeit würde sogar fünfmal mehr Energie verbraucht“, erklärt Zeiser. Stattdessen können ab jetzt alle Menschen tagesaktuell von den untertitelten Videos der FAU profitieren.

Falls doch noch Fehler in den Untertiteln enthalten sind, können Dozentinnen und Dozenten ihre Untertitel bei Fehlern direkt im Videoportal anpassen. Andere können sich die Text-Datei herunterladen, manuell anpassen und die korrigierte Version dem MMZ zukommen lassen.

 

Kontakt für die Untertitel: Multimediazentrum (MMZ), Telefon: +49913185-28898, E-Mail: rrze-mmz@fau.de

Weitere Informationen zu den Diensten des MMZ

Zum Videoportal fau.tv

 


Text: Corinna Russow