Mit Algorithmen den Gefühlen auf der Spur

Ein Team aus Studenten und Forschern der ZHAW School of Engineering und der ETH haben den internationalen Textanalyse-Wettbewerb SemEval 2016 gewonnen. Sie haben sich dabei gegen 33 Teams aus über 20 Ländern durchgesetzt.

Mittwoch, 11. Mai 2016

Mit maximal 140 Zeichen sagt man auf Twitter, was man denkt – kurz, prägnant, informell. Über 300 Millionen User nutzen Twitter regelmässig und erzeugen tagtäglich enorme Datenmengen. Diese automatisch zu analysieren und nach Sentiment zu kategorisieren war die Aufgabe am diesjährigen Textanalyse-Wettbewerb SemEval. Ein Team aus Studenten und Forschern der ZHAW School of Engineering und der ETH haben die Aufgabe am besten gelöst und den Wettbewerb gewonnen; 33 Teams aus der ganzen Welt haben sie hinter sich gelassen.

Ein lernendes Programm

Im Rahmen des Wettbewerbs galt es, Twitter-Nachrichten nach «positiv», «neutral» und «negativ» zu unterscheiden. Hierfür legte das Siegerteam ein neuronales Netzwerk an, das mit einem Datensatz von hundert Millionen Tweets trainiert wurde. Die Tweets enthielten allesamt positive oder negative Smileys – so konnte der Computer lernen, welche Wörter mit einer entsprechenden Häufigkeit in der Nähe der Smileys vorkommen und mit grosser Wahrscheinlichkeit deren jeweiliges Sentiment teilen. Basierend auf dem Lern-Datensatz entwickelte das Netzwerk Regeln, um Tweets als «positiv», «neutral» und «negativ» zu bewerten.

10‘000 Kurznachrichten zuordnen

Den programmierten Algorithmus liessen die Forscher im Wettbewerbsszenario 10‘000 Kurznachrichten analysieren und zuordnen. Die Daten wurden zu Vergleichszwecken unabhängig davon von Hand nach «positiv», «neutral» oder «negativ» klassifiziert. Das Schweizer Team erzielte mit seinem Programm eine Übereinstimmung von 63 Prozent – mehr als alle anderen Teams. Die Schwierigkeit liegt vor allem darin, dass Twitter-Nachrichten so kurz sind, oft Abkürzungen und Slang enthalten oder nur in einem bestimmten Kontext eindeutig sind. Deswegen ist auch die Klassifikation von Hand keinesfalls immer eindeutig.

Textanalyse-Konferenz in Winterthur

Die Klassifikation von Tweets ist nur ein Anwendungsgebiet von automatischer Textanalyse. Weitere Fragestellungen befassen sich damit, wie gut maschinelle Übersetzungen in der Praxis funktionieren, wie man automatisch Firmen oder Personen in Texten erkennt oder wie gut man Texte schon automatisch generieren kann. Hierzu veranstaltet die ZHAW School of Engineering am 8. Juni zusammen mit anderen Schweizer Hochschulen und Forschungseinrichtungen die Konferenz SwissText in Winterthur.

Zurück