Bachelorarbeit Informatik: Deep Learning für automatische Stimmerkennung
Dem Computer beibringen, wer wann spricht
Informatik-Absolvent Gabriel Eyyi untersuchte in seiner Bachelorarbeit neue Möglichkeiten, um Sprecher automatisch zu identifizieren. Die dabei angewendeten Methoden wurden von den Prozessen inspiriert, die im Hirn von Säugetieren ablaufen, wenn sie Bilder erkennen.
Es gibt alltägliche Dinge, die für Menschen spielend einfach sind, für Computer aber ein schier unlösbares Problem darstellen. Dazu gehört die Identifikation von Sprecherinnen und Sprechern. Bisher gibt es keine Computerverfahren, die verlässlich feststellen können, wann wer spricht, ohne vorgängig zu wissen, wie viele Sprecher, wie viele Aussagen pro Sprecher und welche Reihenfolge zu erwarten sind. Das Institut für angewandte Informationstechnologie (InIT) will das ändern und sucht nach neuen Verfahren zur Lösung des Problems. Mit seiner Bachelorarbeit leistet auch IT-Absolvent Gabriel Eyyi einen Beitrag dazu.
Der Computer lernt mit
Gabriel Eyyi wendete in seiner Bachelorarbeit eine Methode aus dem Bereich des Machine Learnings an. Damit ist gemeint, dass ein Computerprogramm anhand einer grossen Menge von Beispielen Muster erkennt und Verfahren erlernt, die es anschliessend auch auf neue, unbekannte Daten anwenden kann. Konkret setzte der IT-Absolvent Convolutional Neural Networks ein – kurz CNN. Dozent Thilo Stadelmann erklärt dazu: «CNN sind nicht neu, sondern wurden bereits in den 80er-Jahren entwickelt. Sie basieren auf den Mechanismen, die im Gehirn von Säugetieren ablaufen, wenn sie Bilder erkennen. Darum eignen sie sich besonders gut, um lokale Zusammenhänge in Daten zu erkennen.»
«Convolutional Neural Networks basieren auf den Mechanismen, die im Gehirn von Säugetieren ablaufen, wenn sie Bilder erkennen.»
Thilo Stadelmann
Zeitliche Ausdehnung von Klang
In seiner Bachelorarbeit steht ein Aspekt der Sprache im Zentrum, der bislang eher vernachlässigt wurde. Gabriel Eyyi erklärt: «Der zeitliche Kontext, also wie sich ein Laut über eine kurze Zeit entwickelt, enthält viele sprecherspezifische Informationen. Stellt man sich die Äusserungen eines Sprechers als Spektrogramm vor, können CNN genau diese zeitliche Ausdehnung von Klang auf der horizontalen Achse erkennen lernen.» Mit einer sogenannten siamesischen Architektur – einer Programmierung, die in zwei parallelen Abläufen dieselben Rechenschritte vornimmt – werden dabei jeweils zwei Sprachproben auf die Ähnlichkeit ihrer Sprecher hin untersucht.
Zu wenige Daten
Gabriel Eyyi hat die Tauglichkeit der Methode in einem mehrstufigen Verfahren untersucht. Als Grundlage diente ihm ein Datensatz mit Aussagen von 630 englischsprachigen Sprecherinnen und Sprechern. Wenn dem Netzwerk Identität und Sprecher bekannt waren, identifizierte es in knapp 80 Prozent der Fälle den richtigen Sprecher. Die Versuche, bei denen das Netzwerk keine solchen Angaben hatte, klappte die Identifizierung noch nicht. Gabriel Eyyi erklärt: «Dem System liegen nicht genügend Daten vor, um die Identifikation vornehmen zu können. Man müsste also ein Verfahren entwickeln, das den Datensatz erweitert, ohne den Inhalt zu verändern.» Während es das bei Bildern in Form von Drehung oder Zoom schon gibt, ist es für Stimmaufzeichnungen noch nicht bekannt.
Wer kommt zu Wort?
Für Thilo Stadelmann steht fest, dass das InIT mit kommenden Bachelorarbeiten auf dem Gebiet der Sprechererkennung mit CNN weiterforschen will. Die Anwendungsgebiete sind vielfältig: «Ein wichtiges Feld sind Sicherheits- und Zutrittssysteme, die bei einer entsprechenden Genauigkeit nicht mehr über Fingerabdrücke oder PIN gesichert werden müssten, sondern mit Sprechererkennung funktionieren könnten.» Eine weitere Möglichkeit wird in der Zusammenarbeit mit der Pädagogischen Hochschule Zürich erforscht. Dabei geht es darum, die Unterrichtsgestaltung zu erforschen und festzustellen, ob neben dem Lehrer auch die Schüler zu Wort kommen.
Weitere Informationen
<svg xmlns="http://www.w3.org/2000/svg" viewbox="0 0 256 256" class="iconpack phosphor phosphor-arrow-up-right-bold" fill="currentColor" role="img"><rect width="256" height="256" fill="none"></rect><line x1="64" y1="192" x2="192" y2="64" fill="none" stroke="currentColor" stroke-linecap="round" stroke-linejoin="round" stroke-width="24"></line><polyline points="88 64 192 64 192 168" fill="none" stroke="currentColor" stroke-linecap="round" stroke-linejoin="round" stroke-width="24"></polyline></svg>Bachelorstudium InformatikInstitut für angewandte Informationstechnologie (InIT)
Infotage und Anmeldeschluss Bachelorstudiengänge
Anmeldung zum Bachelorstudium
- Zur Anmeldung (Anmeldeschluss: 04.05.2025)
Das könnte Sie auch interessieren
Aufnahmebedingungen
Die Aufnahmebedingungen für das Bachelorstudium an der ZHAW School of Engineering.
Studiumsvorbereitung
Erfahren Sie, wie Sie sich optimal auf das Bachelorstudium vorbereiten können.
Anmeldung zum Bachelorstudium
Aufnahmebedingungen
Studiumsvorbereitung
Melden Sie sich jetzt zum Bachelorstudium an.
Die Aufnahmebedingungen für das Bachelorstudium an der ZHAW School of Engineering.
Erfahren Sie, wie Sie sich optimal auf das Bachelorstudium vorbereiten können.