Swiss-AL: Ein Schweizer Web-Korpus für die Angewandte Linguistik
An der ZHAW entsteht eines der grössten mehrsprachigen Korpora der Schweiz. Es ermöglicht umfassende korpusgestütze und korpusbasierte Analysen, beispielsweise für diskurslinguistische Fragestellungen.
Das Schweizer Webkorpus für Angewandte Linguistik (Swiss-AL) ist eine linguistisch aufbereitete, mehrsprachige Sammlung von Texten zentraler Akteure der Schweizerischen öffentlichen Kommunikation. Es enthält ausserdem einen kleinen Anteil bundesdeutscher Medien. Es ermöglicht die datengestützte und datengetriebene Forschung zu gesellschaftlichen und politischen Diskursen in der Schweiz. Es enthält gegenwärtig 8 Millionen Texte (ca. 1,55 Milliarden Token), darunter Nachrichten und Fachpublikationen, Regierungsmeinungen und Parlamentsprotokolle, Websites von politischen Parteien, Unternehmen und Universitäten, Stellungnahmen von Wirtschaftsverbänden und NGOs etc. Eine flexible Verarbeitungspipeline ermöglicht es, maßgeschneiderte Subkorpora für die Untersuchung von Diskursen in einer Vielzahl von Bereichen zu erstellen.
Anwendungsgebiete
Swiss-AL wurde bisher erfolgreich in der Forschung zu den öffentlichen Diskursen über Energie, Europapolitik und Antibiotikaresistenz in der Schweiz eingesetzt. Es dient ausserdem als Datengrundlage für die Wahl zum "Wort des Jahres in der Schweiz".
Zusammensetzung
Swiss-AL besteht aus einer Reihe einzelner Teilkorpora:
Swiss-AL-Korpusfamilie
Teilkorpus | Inhalte | Umfang (Stand Juni 2019) |
---|---|---|
Swiss-AL-DE-CHE | Deutschsprachige Texte Schweizer Webquellen aus den Bereichen Politik, Medien, Wirtschaft und Bildung | 700 Mio. Wörter in 1.3 Mio. Texten |
Swiss-AL-FR-CHE | Französischsprachige Texte Schweizer Webquellen aus den Bereichen Politik, Medien, Wirtschaft und Bildung | 342 Mio. Wörter in 0.6 Mio. Texten |
Swiss-AL-IT-CHE | Italienischsprachige Texte Schweizer Webquellen aus den Bereichen Politik, Medien, Wirtschaft und Bildung | 150 Mio. Wörter in 0.4 Mio. Texten |
Swiss-AL-twitter | Tweets zum Thema Umwelt, Energie & Klimaschutz (2018-2019) | 128 Mio. Wörter in 4.8 Mio Tweets |
Swiss-AL-forums | Userforen aus dem Bereich Gesundheit | 9.8 Mio. Wörter in 0.1 Mio Texten |
Swiss-AL-DE-DEU | Bundesdeutsche Medien (Leitmedien und rechtspopulistische Medien) | 215 Mio. Wörter in 0.7 Mio Texten |
Zugang
Swiss-AL steht für Recherchen auf der Plattform swiss-al.linguistik.zhaw.ch zur Verfügung. Die Plattform bietet einen Volltextzugang zum Amtlichen Bulletin des Schweizer Parlaments und ermöglicht die Analyse von Wortdistributionen und Sprachgebrauchsmustern in den verschiedenen Teilkorpora von Swiss-AL.
Team
Publikationen
Krasselt, Julia, Philipp Dreesen, Matthias Fluor, Cerstin Mahlow, Klaus Rothenhäusler & Maren Runte. 2020. Swiss-AL: A Multilingual Swiss Web Corpus for Applied Linguistics. In Proceedings of The 12th Language Resources and Evaluation Conference, 4138--4144. Marseille, France. https://www.aclweb.org/anthology/2020.lrec-1.509.