INODE – Intelligent Open Data Exploration (EU Horizon 2020)

Beschreibung

In den letzten zehn Jahren ist die Datenmenge auch in der Wissenschaft enorm gewachsen. Zudem ertönt immer lauter die Forderung nach einer Demokratisierung und allgemeiner Zugänglichkeit von Forschungsresultaten, die häufig mittels öffentlicher Gelder zu Stande gekommen sind. Doch gerade im Umfeld wissenschaftlicher Datenbanken ist die Suche nach Informationen schwierig. Um spezifische Daten zu finden, müssen Suchende über hochspezialisierte Informatik-Kenntnisse verfügen. Dies führt dazu, dass viele wertvolle Erkenntnisse nur unzureichend in die Praxis einfliessen.

Um wissenschaftliche Daten besser nutzbar zu machen, soll eine neuartige Suchmaschine namens INODE (Intelligent Open Data Exploration) entwickelt werden, die intuitiv zu bedienen ist. So können beispielsweise in der Krebsforschung tätige Ärzt:innen bestimmte Bioinformatikdaten finden, die Einfluss auf den Erfolg von Therapien haben, derweil Astrophysiker:innen die Verschiebungen von Sternen ausfindig machen können.

Im Gegensatz zu herkömmlichen Suchmaschinen soll INODE eine Art Konversation mit den Benutzenden führen, bei der schwierige Fragen schrittweise beantwortet werden. Dabei werden menschliche und künstliche Intelligenz miteinander kombiniert. Gleichzeitig wird das Instrument die Ergebnisse mit neuen Visualisierungsmethoden darstellen, die komplexe Zusammenhänge schneller und einfacher vermitteln.

Das Projekt will die Forschung an der Schnittstelle zwischen künstlicher Intelligenz und Datenbanken vorantreiben. Damit das funktionieren kann, braucht es zuerst einmal ein Programm, welches die natürliche Sprache, in der ein Suchwort eingegeben wird, in Sekundenschnelle in eine Datenbanksprache übersetzt. Eine Herausforderung dabei ist, dass Begriffe in natürlicher Sprache - etwa Englisch oder Deutsch - häufig mehrdeutig sind. So kann zum Beispiel mit dem Wort Golf gleichzeitig eine Sportart, eine Automarke oder eine Meeresbucht gemeint sein. Bestehende Übersetzungsprogramme, die auf künstlicher Intelligenz basieren, lösen dieses Problem mit einem Algorithmus, der gängige Sprachmuster erkennt und auf der Basis von umfangreichen Schriften automatisch dazulernt. Diese Methode funktioniert im Fall der Datenbanksprache SQL aber nicht, weil es häufig noch keine Trainingsdaten gibt. Zudem können Datenbanken unterschiedlich strukturiert sei, wodurch ein bestimmter Algorithmus nicht überall einsetzbar ist. Deshalb verfolgen die Forschenden einen sogenannten Hybrid-Ansatz: Am Anfang werden Suchwörter in einen bestimmten Code übersetzt, um Abfragen anhand bestimmter Regeln als SQL-Anweisung zu erzeugen.

Das Datenbanksystem protokolliert jede Suche automatisch und die Nutzer:innen melden zurück, ob die automatisch generierte SQL-Anweisung und das Ergebnis korrekt sind. So entstehen immer mehr Trainingsdaten, mit denen das System dazulernen kann. Mit der Zeit soll das System ganz auf dem Machine Learning basieren.

Das Institut für angewandte Informationstechnologie arbeitet mit acht Forschungspartnern aus verschiedenen europäischen Ländern zusammen. Das Horizon 2020 Projekt läuft von 2019 bis 2022.

Eckdaten

Projektleitung

Prof. Dr. Kurt Stockinger

Projektteam

Prof. Dr. Martin Braschler, Ellery Smith, Catherine Kosten, Ana-Claudia Sima, Ursin Brunner, Yi Zhang, Dr. Farhad Nooralahzadeh

Projektpartner

ATHENA Research; Centre national de la recherche scientifique CNRS; Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.; Free University of Bozen-Bolzano; Infili Technologies P.C.; Max-Planck-Gesellschaft; SIRIS Academic SL; Swiss Institute of Bioinformatics SIB

Projektstatus

abgeschlossen, 11/2019 - 10/2022

Institut/Zentrum

Institut für Informatik (InIT)

Drittmittelgeber

Horizon 2020 / Projekt-Nr. 863410

Projektvolumen

5'732'000 EUR