«Weltrekordhalter» in Sprechererkennung zu Gast in Tokio

Die Informatik-Absolventen Yanick Lukic und Carlo Vogt haben im Rahmen ihrer Bachelorarbeit eine Software entwickelt, die Stimmen in Audiodateien erkennen und zuordnen kann. Nun waren die beiden an einem Fachkongress in Japan zu Gast, um ihre Arbeit einem internationalen Publikum vorzustellen.

Die Informatik-Absolventen Carlo Vogt (links) und Yanick Lukic haben ihre Bachelorarbeit in Japan einem internationalen Fachpublikum vorgestellt.
Die Informatik-Absolventen Carlo Vogt (links) und Yanick Lukic haben ihre Bachelorarbeit in Japan einem internationalen Fachpublikum vorgestellt.

Am International Workshop on Machine Learning for Signal Processing treffen sich jährlich mehrere hundert Fachleute aus den Gebieten Machine Learning und Signalverarbeitung. Ende September weilten auch die Informatik-Absolventen Yanick Lukic und Carlo Vogt am internationalen Kongress, der in diesem Jahr in Tokio stattfand. «Die Konferenz war eine tolle Erfahrung. Wir trafen viele Wissenschaftlerinnen und Wissenschaftler sowie Studierende aus der ganzen Welt», so Yanick Lukic. Dozent Thilo Stadelmann, der die Bachelorarbeit mitbetreut hat, ist begeistert: «Es ist alles andere als selbstverständlich, dass zwei unserer Absolventen am Workshop teilnehmen dürfen. Ihre Arbeit wurde von drei Fachleuten unabhängig voneinander geprüft, ohne den Absender zu kennen.»

Grundlagentechnologie erforscht

Wie kann ich multimediale Inhalte per Computer indexieren? Dieser Frage gingen die Absolventen in ihrer Bachelorarbeit nach. Yanick Lukic erklärt: «Wenn ich Medien durchsuchen will, dann brauche ich einen Index. Früher waren das in der Bibliothek die Karteikarten. Sie gaben Auskunft darüber, wo ich was finde. Heute ist das natürlich alles digitalisiert.» Es ist Grundlagentechnologie, an der die beiden Absolventen gearbeitet haben. Während man Bücher bereits automatisch erfassen und dann mit Schlagworten finden kann, gestaltet es sich mit Medien wie Musik, Hörbüchern oder Filmen weitaus schwieriger. Gleiches gilt auch für Mitschnitte von Reden und Meetings. «Unsere Software kann Audio-Inhalte erkennen und feststellen, wer wann gesprochen hat», sagt Carlo Vogt. «So lassen sich beispielsweise Gespräche auswerten oder eben auch Audio- und Video-Inhalte in einer Bibliothek leichter finden.»

Aktueller Weltrekord in Sprechererkennung

«Die Absolventen haben es geschafft, dass ihre Bachelorarbeit nun aktuell 'state of the art' ist, wenn es darum geht, Audio-Dateien in bestimmte Abschnitte von Stimmen zu unterteilen», so Co-Betreuer und Dozent Oliver Dürr. «Sie halten quasi den aktuellen Weltrekord in Sprechererkennung.» An diesem Entwicklungsstand werden sich künftige Forschungsarbeiten nun messen müssen. Die beiden Absolventen bleiben bescheiden und überlassen das Forschungsfeld Sprechererkennung nun anderen. «Ich haben nun im Masterstudium noch immer mit Machine Learning zu tun – jedoch in einem anderen Anwendungsbereich», sagt Yanick Lukic. Und Carlo Vogt, der ins Berufsleben eingestiegen ist, ergänzt: «Aber auch wenn wir das Projekt selber nicht fortsetzen, helfen wir gerne unseren Nachfolgern bei Fragen weiter.»