Eingabe löschen

Kopfbereich

Schnellnavigation

Hauptnavigation

Swiss-AL: Ein Schweizer Web-Korpus für die Angewandte Linguistik

An der ZHAW entsteht eines der grössten mehrsprachigen Korpora der Schweiz. Es ermöglicht umfassende korpusgestütze und korpusbasierte Analysen, beispielsweise für diskurslinguistische Fragestellungen.

Das Schweizer Webkorpus für Angewandte Linguistik (Swiss-AL) ist eine linguistisch aufbereitete, mehrsprachige Sammlung von Texten zentraler Akteure der Schweizerischen öffentlichen Kommunikation. Es enthält ausserdem einen kleinen Anteil bundesdeutscher Medien. Es ermöglicht die datengestützte und datengetriebene Forschung zu gesellschaftlichen und politischen Diskursen in der Schweiz. Es enthält gegenwärtig 8 Millionen Texte (ca. 1,55 Milliarden Token), darunter Nachrichten und Fachpublikationen, Regierungsmeinungen und Parlamentsprotokolle, Websites von politischen Parteien, Unternehmen und Universitäten, Stellungnahmen von Wirtschaftsverbänden und NGOs etc. Eine flexible Verarbeitungspipeline ermöglicht es, maßgeschneiderte Subkorpora für die Untersuchung von Diskursen in einer Vielzahl von Bereichen zu erstellen.

Anwendungsgebiete

Swiss-AL wurde bisher erfolgreich in der Forschung zu den öffentlichen Diskursen über Energie, Europapolitik und Antibiotikaresistenz in der Schweiz eingesetzt. Es dient ausserdem als Datengrundlage für die Wahl zum "Wort des Jahres in der Schweiz".

Zusammensetzung

Swiss-AL besteht aus einer Reihe einzelner Teilkorpora:

Swiss-AL-Korpusfamilie

Teilkorpus Inhalte Umfang (Stand Juni 2019)
Swiss-AL-DE-CHE Deutschsprachige Texte Schweizer Webquellen aus den Bereichen Politik, Medien, Wirtschaft und Bildung 700 Mio. Wörter in 1.3 Mio. Texten
Swiss-AL-FR-CHE Französischsprachige Texte Schweizer Webquellen aus den Bereichen Politik, Medien, Wirtschaft und Bildung 342 Mio. Wörter in 0.6 Mio. Texten
Swiss-AL-IT-CHE Italienischsprachige Texte Schweizer Webquellen aus den Bereichen Politik, Medien, Wirtschaft und Bildung 150 Mio. Wörter in 0.4 Mio. Texten
Swiss-AL-twitter Tweets zum Thema Umwelt, Energie & Klimaschutz (2018-2019) 128 Mio. Wörter in 4.8 Mio Tweets
Swiss-AL-forums Userforen aus dem Bereich Gesundheit 9.8 Mio. Wörter in 0.1 Mio Texten
Swiss-AL-DE-DEU Bundesdeutsche Medien (Leitmedien und rechtspopulistische Medien) 215 Mio. Wörter in 0.7 Mio Texten

Zugang

Swiss-AL steht für Recherchen auf der Plattform swiss-al.linguistik.zhaw.ch zur Verfügung. Die Plattform bietet einen Volltextzugang zum Amtlichen Bulletin des Schweizer Parlaments und ermöglicht die Analyse von Wortdistributionen und Sprachgebrauchsmustern in den verschiedenen Teilkorpora von Swiss-AL.

Team

Publikationen

Krasselt, Julia, Philipp Dreesen, Matthias Fluor, Cerstin Mahlow, Klaus Rothenhäusler & Maren Runte. 2020. Swiss-AL: A Multilingual Swiss Web Corpus for Applied Linguistics. In Proceedings of The 12th Language Resources and Evaluation Conference, 4138--4144. Marseille, France. https://www.aclweb.org/anthology/2020.lrec-1.509.