INODE – Intelligent Open Data Exploration (EU Horizon 2020)
Auf einen Blick
- Projektleiter/in : Prof. Dr. Kurt Stockinger
- Projektteam : Prof. Dr. Martin Braschler, Ursin Brunner, Catherine Kosten, Ana-Claudia Sima, Ellery Smith, Yi Zhang
- Projektvolumen : EUR 5'732'000
- Projektstatus : laufend
- Drittmittelgeber : EU und andere Internationale Programme (Horizon 2020 / Projekt-Nr. 863410)
- Projektpartner : ATHENA Research, French National Centre for Scientific Research CNRS, Fraunhofer-Gesellschaft, Free University of Bozen-Bolzano, Infili Technologies P.C., Max-Planck-Gesellschaft, SIRIS Academic SL, Swiss Institute of Bioinformatics SIB
- Kontaktperson : Kurt Stockinger
Beschreibung
In den letzten zehn Jahren ist die Datenmenge auch in der
Wissenschaft enorm gewachsen. Zudem ertönt immer lauter die
Forderung nach einer Demokratisierung und allgemeiner
Zugänglichkeit von Forschungsresultaten, die häufig mittels
öffentlicher Gelder zu Stande gekommen sind. Doch gerade im Umfeld
wissenschaftlicher Datenbanken ist die Suche nach Informationen
schwierig. Um spezifische Daten zu finden, müssen Suchende über
hochspezialisierte Informatik-Kenntnisse verfügen. Dies führt dazu,
dass viele wertvolle Erkenntnisse nur unzureichend in die Praxis
einfliessen.
Um wissenschaftliche Daten besser nutzbar zu machen, soll eine
neuartige Suchmaschine namens INODE (Intelligent Open Data
Exploration) entwickelt werden, die intuitiv zu bedienen ist. So
können beispielsweise in der Krebsforschung tätige Ärzte bestimmte
Bioinformatikdaten finden, die Einfluss auf den Erfolg von
Therapien haben, derweil Astrophysikerinnen die Verschiebungen von
Sternen ausfindig machen können.
Im Gegensatz zu herkömmlichen Suchmaschinen soll INODE eine Art
Konversation mit den Benutzenden führen, bei der schwierige Fragen
schrittweise beantwortet werden. Dabei werden menschliche und
künstliche Intelligenz miteinander kombiniert. Gleichzeitig wird
das Instrument die Ergebnisse mit neuen Visualisierungsmethoden
darstellen, die komplexe Zusammenhänge schneller und einfacher
vermitteln.
Das Projekt will die Forschung an der Schnittstelle zwischen
künstlicher Intelligenz und Datenbanken vorantreiben. Damit das
funktionieren kann, braucht es zuerst einmal ein Programm, welches
die natürliche Sprache, in der ein Suchwort eingegeben wird, in
Sekundenschnelle in eine Datenbanksprache übersetzt. Eine
Herausforderung dabei ist, dass Begriffe in natürlicher Sprache
–etwa Englisch oder Deutsch - häufig mehrdeutig sind. So kann zum
Beispiel mit dem Wort Golf gleichzeitig eine Sportart, eine
Automarke oder eine Meeresbucht gemeint sein. Bestehende
Übersetzungsprogramme, die auf künstlicher Intelligenz basieren,
lösen dieses Problem mit einem Algorithmus, der gängige
Sprachmuster erkennt und auf der Basis von umfangreichen Schriften
automatisch dazulernt. Diese Methode funktioniert im Fall der
Datenbanksprache SQL aber nicht, weil es häufig noch keine
Trainingsdaten gibt. Zudem können Datenbanken unterschiedlich
strukturiert sei, wodurch ein bestimmter Algorithmus nicht überall
einsetzbar ist. Deshalb verfolgen die Forschenden einen sogenannten
Hybrid-Ansatz: Am Anfang werden Suchwörter in einen bestimmten Code
übersetzt, um Abfragen anhand bestimmter Regeln als SQL-Anweisung
zu erzeugen. Das Datenbanksystem protokolliert jede Suche
automatisch und die NutzerInnen melden zurück, ob die automatisch
generierte SQL-Anweisung und das Ergebnis korrekt sind. So
entstehen immer mehr Trainingsdaten, mit denen das System
dazulernen kann. Mit der Zeit soll das System ganz auf dem Machine
Learning basieren.
Das Institut für angewandte Informationstechnologie arbeitet mit
acht Forschungspartnern aus verschiedenen europäischen Ländern
zusammen. Das Horizon 2020 Projekt läuft von 2019 bis 2022.
Weiterführende Informationen
Publikationen
-
Amer-Yahia, Sihem; Koutrika, Georgia; Braschler, Martin; Calvanese, Diego; Lanti, Davide; Lücke-Tieke, Hendrik; Mosca, Alessandro; Mendes de Farias, Tarcisio; Papadopoulos, Dimitris; Patil, Yogendra; Rull, Guillem; Smith, Ellery; Skoutas, Dimitrios; Subramanian, Srividya; Stockinger, Kurt,
2021.
INODE : building an end-to-end data exploration system in practice.
SIGMOD Record.
Verfügbar unter: https://doi.org/10.21256/zhaw-23624
-
Brunner, Ursin; Stockinger, Kurt,
2021.
ValueNet : a natural language-to-SQL system that learns from database information [Paper].
In:
Proceedings of the 37th ICDE.
International Conference on Data Engineering (ICDE), Chania, Greece, 19-22 April 2021.
IEEE.
Verfügbar unter: https://doi.org/10.21256/zhaw-22000
-
Smith, Ellery; Papadopoulos, Dimitris; Braschler, Martin; Stockinger, Kurt,
2021.
Information Systems.
105.
Verfügbar unter: https://doi.org/10.1016/j.is.2021.101938
-
Deriu, Jan Milan; Mlynchyk, Katsiaryna; Schläpfer, Philippe; Rodrigo, Alvaro; von Grünigen, Dirk; Kaiser, Nicolas; Stockinger, Kurt; Agirre, Eneko; Cieliebak, Mark,
2020.
A methodology for creating question answering corpora using inverse data annotation [Paper].
In:
Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.
ACL 2020, Virtual, 5-10 July 2020.
Association for Computational Linguistics.
S. 897-911.
Verfügbar unter: https://doi.org/10.18653/v1/2020.acl-main.84