Neues schweizerdeutsches Speech-to-Text-Korpus auf der ACL 2023 vorgestellt

Wir präsentieren das STT4SG-350 Speech-to-Text-Korpus für Schweizerdeutsch, das aus 343 Stunden Audio besteht. Die Arbeit wurde auf der ACL 2023 angenommen.

Mittwoch, 28. Juni 2023

Wir freuen uns, die Veröffentlichung des STT4SG-350-Korpus (Speech-to-Text für Schweizerdeutsch) bekannt zu geben, ein ehrgeiziges Projekt, das einen wichtigen Beitrag zur schweizerdeutschen Sprachforschung und -technologie leistet. Das Korpus, das auf der Konferenz der Association for Computational Linguistics (ACL) im Jahr 2023 veröffentlicht wird, enthält 343 Stunden schweizerdeutscher Sprachdaten, die mit standarddeutschem Text annotiert sind. Dieses Korpus ist das Ergebnis des SNF-Projekts: "End-to-End Low-Resource Speech Translation for Swiss German Dialects", einer Zusammenarbeit zwischen ZHAW, FHNW und UZH.

Das STT4SG-350-Korpus, das bisher grösste öffentlich zugängliche Sprachkorpus des Schweizerdeutschen, ist das Ergebnis unserer Bemühungen, die Horizonte der schweizerdeutschen Sprachtechnologie zu erweitern. Für die Datenerhebung wurden Sprechern in einer Web-App standarddeutsche Sätze gezeigt, die sie dann ins Schweizerdeutsche übersetzten und aufzeichneten. Das Korpus umfasst alle Deutschschweizer Dialektregionen und spiegelt einen breiten Querschnitt der Schweizer Gesellschaft wider. Es enthält Daten von 316 Sprecherinnen und Sprechern aller Altersgruppen, wobei die Geschlechter gleichmässig vertreten sind. Wichtig ist, dass jede Dialektregion mit ungefähr gleich vielen Sprachdaten vertreten ist, was sicherstellt, dass das Korpus eine hervorragende Ressource für vergleichende Studien und dialektspezifische Technologien darstellt.

Diese umfangreiche Sammlung schweizerdeutscher Sprache ist eine Fundgrube für viele Bereiche der linguistischen Forschung und Entwicklung. Ihre potenziellen Anwendungen reichen von der automatischen Spracherkennung (ASR) über die Text-zu-Sprache-Konvertierung bis hin zur Dialektidentifikation und Sprechererkennung. Darüber hinaus haben wir die Daten sorgfältig in Trainings-, Validierungs- und Testdatensätze aufgeteilt, um strenge Experimente und Evaluierungen zu unterstützen. Insbesondere der Testsatz besteht aus denselben Sätzen, die in jeder Dialektregion gesprochen werden, was eine faire Bewertung der Technologie in verschiedenen Dialekten ermöglicht.

Die Stärke unseres Korpus liegt nicht nur in seiner Grösse und Vielfalt, sondern auch in seiner Qualität. Wir haben ein ASR-Modell auf dem STT4SG-350 Trainingssatz trainiert und einen beeindruckenden durchschnittlichen BLEU-Wert von 74,7 auf dem Testsatz erzielt. Insbesondere übertraf dieses Modell die besten veröffentlichten Ergebnisse auf zwei anderen Deutschschweizer ASR-Testsätzen, was die Robustheit unseres Korpus unterstreicht.

Im Geiste der offenen Forschung und Zusammenarbeit stellen wir das STT4SG-350-Korpus für Forschungszwecke zur Verfügung.

Zurück