Eingabe löschen

Kopfbereich

Schnellnavigation

Hauptnavigation

Machine translation literacy for academics

Pilotstudie zur linguistischen Evaluation der NMT-Übersetzbarkeit von Texten

Auf einen Blick

Beschreibung

Zielsetzung
Das Projekt untersucht das Potential von maschineller Übersetzung (NMT) für wissenschaftliche Texte (Abstracts, Papers usw.) zu Publikationszwecken.

Ausgangslage und -hypothese
NMT wird oft vorgeworfen, dass Textkohäsion, (Terminologie) und "Hedging" (Heckenbegriffe) nicht zufriedenstellend übertragen werden. Dies könnte auch an syntaktischen Sprachunterschieden liegen. Dieses Projekt untersucht die syntaktischen Besonderheiten von Abstracts und überprüft, wie diese von gängigen, kostenlosen Übersetzungssystemen gehandhabt haben.

Arbeitskorpus
300 Abstracts von Dissertationen in deutscher Sprache (DE, CH, AT) sowie die Outputs von DeepL und Google Übersetzung in Englisch, morphosyntaktisch annotiert (Treetagger – TagAnt) und satzweise aliniert (AntConc & AntPConc).


Methodisches Vorgehen: rekursiv-emergenter Ansatz
1. Beobachtungen aus Vorstudien als Grundlage für Explorationen in AntConc und AntPConc.
2. Ausarbeitung von potenziellen Problemkonstruktionen im Deutschen:
a. Modalverben ("sollen und "können")
b. Präsentativkonstruktionen X Verb Y(semantisches Subjekt)
i.  X Verb Y(Nebensatz als semantisches Subjekt), z.B. :"Überdies wird der Frage nachgegangen, ob die Übertragbarkeit der Inhaberaktie […]"
ii. X Verb Y(Nominalphrase als semantisches Subjekt), z.B.: "Es liegen bioklastische, homogen strukturierten Wacke- bis Mudstones vor, deren Kalk-Mergel-Wechsellagerung auf einem „Verdünnungseffekt“ der Karbonatproduktion beruht."
3. Qualitative Analyse (unter Einbeziehung von Sprachexperten für Englisch) der entsprechenden, von DeepL und Google Translate produzierten englischen Konstruktionen auf semantische Übereinstimmung / Syntaktische Idiomatizität / Ambiguität.
4. Quantitative Auswertung, basierend auf der qualitativen Analyse

Erkenntnisse
1. Textkohäsion: "Dabei" und "So" am Satzanfang werden im NMT-Prozess überdurchschnittlich oft weggelassen, was dazu führt, dass die Linksverbindung ebenfalls weggelassen wird. Die gesamte Textkohäsion wird dadurch verringert.
2. Hedging: "sollen" birgt in wissenschaftlichen Abstracts die Gefahr einer zweideutigen Übersetzung ins Englische. In ca. 50% der Fälle wird entweder eine zusätzliche Abschwächung der Aussage oder die Möglichkeit einer Fehlinterpretation festgestellt.
3. Präsentativkonstruktionen: Sie werden mehrheitlich durch NMT so übersetzt, dass der Zieltext entweder nicht semantisch übereinstimmend, nicht idiomatisch oder nicht eindeutig ist.
4. Formulaic speech: Je fester die Redewendungen sind, desto höher ist die Wahrscheinlichkeit, dass die NMT-Systeme einen korrekten, idiomatischen und eindeutigen Text generiert. Beispiel: erweiterte hedged performatives ("Zusammenfassend kann festgehalten werden, dass…") werden alle korrekt übersetzt.

Diese Erkenntnisse gelten nur für die Korpora, die in dieser Studie verwendet wurden und ausschließlich wissenschaftliche Abstracts enthielten.

Publikationen