Sprachadaption in deinem Dialekt – CAI klont Stimmen für SRF Einstein
Forschende am Center for Artificial Intelligence (CAI) haben ein System zur Sprachadaption entwickelt, das beliebige Stimmen imitieren und in verschiedenen Schweizerdeutschen Dialekten sprechen kann. Die Technologie wurde kürzlich in der Wissenschaftssendung Einstein des SRF vorgestellt und wird auf der renommierten Interspeech-Konferenz präsentiert.

Am CAI erforschen unsere Wissenschaftlerinnen und Wissenschaftler die Grenzen der Sprachsynthese – insbesondere die Herausforderung, Stimmen an regionale Dialekte anzupassen. Das Ergebnis ist ein leistungsfähiges Stimmmodell, das eine Stimme mit nur wenigen Sekunden Audiomaterial klonen und sie anschließend in unterschiedlichen Schweizer Dialekten sprechen lassen kann.
Diese Technologie wurde kürzlich im Schweizer Fernsehen in der SRF-Sendung Einstein vorgestellt. Für den Beitrag klonten wir die Stimme des Einstein-Moderators und ließen ihn traditionelle Geschichten aus dem Sarganserland im lokalen Dialekt „vorlesen“. Zwar trifft das System noch nicht jede dialektale Feinheit, doch die synthetische Stimme war realistisch genug, um mehrere Kolleginnen und Kollegen des Moderators zu täuschen.
Das Projekt zeigt das Potenzial KI-gestützter Sprachadaption – von der Medienproduktion bis hin zur Bewahrung von Regionalsprachen. Am CAI arbeiten wir weiter an der Verbesserung des Systems, um noch genauere und ausdrucksstärkere Dialektsynthese zu ermöglichen.
Die entsprechende Einstein-Folge sowie das Paper mit den technischen Hintergründen finden Sie online.
Die Forschung zu diesem System wurde zur Präsentation bei Interspeech angenommen – der weltweit größten Konferenz für gesprochene Sprachverarbeitung. Das Paper beschreibt die technischen Innovationen des Modells, insbesondere dessen Fähigkeit, Stimmen dialektübergreifend anzupassen. Den Preprint finden Sie hier.
Die Arbeit wurde unterstützt durch die DFF-Initiative und Samuel Stuckis Masterarbeit.