INODE – Intelligent Open Data Exploration (EU Horizon 2020)

Auf einen Blick

Projektleiter/in : Prof. Dr. Kurt Stockinger
Projektteam : Prof. Dr. Martin Braschler, Ursin Brunner, Catherine Kosten, Farhad Nooralahzadeh, Ana-Claudia Sima, Ellery Smith, Yi Zhang
Projektvolumen : EUR 5'732'000
Projektstatus : abgeschlossen
Drittmittelgeber : EU und andere Internationale Programme (Horizon 2020 / Projekt-Nr. 863410)
Projektpartner : ATHENA Research, French National Centre for Scientific Research CNRS, Fraunhofer-Gesellschaft, Free University of Bozen-Bolzano, Infili Technologies P.C., Max-Planck-Gesellschaft, SIRIS Academic SL, Swiss Institute of Bioinformatics SIB
Kontaktperson : Kurt Stockinger

Beschreibung

In den letzten zehn Jahren ist die Datenmenge auch in der Wissenschaft enorm gewachsen. Zudem ertönt immer lauter die Forderung nach einer Demokratisierung und allgemeiner Zugänglichkeit von Forschungsresultaten, die häufig mittels öffentlicher Gelder zu Stande gekommen sind. Doch gerade im Umfeld wissenschaftlicher Datenbanken ist die Suche nach Informationen schwierig. Um spezifische Daten zu finden, müssen Suchende über hochspezialisierte Informatik-Kenntnisse verfügen. Dies führt dazu, dass viele wertvolle Erkenntnisse nur unzureichend in die Praxis einfliessen. Um wissenschaftliche Daten besser nutzbar zu machen, soll eine neuartige Suchmaschine namens INODE (Intelligent Open Data Exploration) entwickelt werden, die intuitiv zu bedienen ist. So können beispielsweise in der Krebsforschung tätige Ärzte bestimmte Bioinformatikdaten finden, die Einfluss auf den Erfolg von Therapien haben, derweil Astrophysikerinnen die Verschiebungen von Sternen ausfindig machen können. Im Gegensatz zu herkömmlichen Suchmaschinen soll INODE eine Art Konversation mit den Benutzenden führen, bei der schwierige Fragen schrittweise beantwortet werden. Dabei werden menschliche und künstliche Intelligenz miteinander kombiniert. Gleichzeitig wird das Instrument die Ergebnisse mit neuen Visualisierungsmethoden darstellen, die komplexe Zusammenhänge schneller und einfacher vermitteln. Das Projekt will die Forschung an der Schnittstelle zwischen künstlicher Intelligenz und Datenbanken vorantreiben. Damit das funktionieren kann, braucht es zuerst einmal ein Programm, welches die natürliche Sprache, in der ein Suchwort eingegeben wird, in Sekundenschnelle in eine Datenbanksprache übersetzt. Eine Herausforderung dabei ist, dass Begriffe in natürlicher Sprache –etwa Englisch oder Deutsch - häufig mehrdeutig sind. So kann zum Beispiel mit dem Wort Golf gleichzeitig eine Sportart, eine Automarke oder eine Meeresbucht gemeint sein. Bestehende Übersetzungsprogramme, die auf künstlicher Intelligenz basieren, lösen dieses Problem mit einem Algorithmus, der gängige Sprachmuster erkennt und auf der Basis von umfangreichen Schriften automatisch dazulernt. Diese Methode funktioniert im Fall der Datenbanksprache SQL aber nicht, weil es häufig noch keine Trainingsdaten gibt. Zudem können Datenbanken unterschiedlich strukturiert sei, wodurch ein bestimmter Algorithmus nicht überall einsetzbar ist. Deshalb verfolgen die Forschenden einen sogenannten Hybrid-Ansatz: Am Anfang werden Suchwörter in einen bestimmten Code übersetzt, um Abfragen anhand bestimmter Regeln als SQL-Anweisung zu erzeugen. Das Datenbanksystem protokolliert jede Suche automatisch und die NutzerInnen melden zurück, ob die automatisch generierte SQL-Anweisung und das Ergebnis korrekt sind. So entstehen immer mehr Trainingsdaten, mit denen das System dazulernen kann. Mit der Zeit soll das System ganz auf dem Machine Learning basieren. Das Institut für angewandte Informationstechnologie arbeitet mit acht Forschungspartnern aus verschiedenen europäischen Ländern zusammen. Das Horizon 2020 Projekt läuft von 2019 bis 2022.

Weiterführende Informationen

inode-project.eu

Publikationen

Smith, Ellery; Paloots, Rahel; Giagkos, Dimitris; Baudis, Michael; Stockinger, Kurt,

2024.

Data-driven information extraction and enrichment of molecular profiling data for cancer cell lines.

Bioinformatics Advances.

4(1), S. vbae045.

Verfügbar unter: https://doi.org/10.1093/bioadv/vbae045
Zhang, Yi; Deriu, Jan Milan; Katsogiannis-Meimarakis, George; Kosten, Catherine; Koutrika, Georgia; Stockinger, Kurt,

2024.

ScienceBenchmark : a complex real-world benchmark for evaluating natural language to SQL systems.

Proceedings of the VLDB Endowment.

17(4), S. 685-698.

Verfügbar unter: https://doi.org/10.14778/3636218.3636225
Kosten, Catherine; Cudré-Mauroux, Philippe; Stockinger, Kurt,

2024.

Spider4SPARQL : a complex benchmark for evaluating knowledge graph question answering systems [Paper].

In:

2023 IEEE International Conference on Big Data (BigData).

IEEE International Conference on Big Data, Sorrento, Italy, 15-18 December 2023.

IEEE.

Verfügbar unter: https://doi.org/10.1109/BigData59044.2023.10386182
von Däniken, Pius; Deriu, Jan Milan; Agirre, Eneko; Brunner, Ursin; Cieliebak, Mark; Stockinger, Kurt,

2022.

Improving NL-to-Query systems through re-ranking of semantic hypothesis [Paper].

In:

Abbas, Mourad; Freihat, Abed Alhakim, Hrsg.,

Proceedings of the 5th International Conference on Natural Language and Speech Processing (ICNLSP 2022).

5th International Conference on Natural Language and Speech Processing (ICNLSP), online, 16-17 December 2022.

Association for Computational Linguistics.

S. 57-67.

Verfügbar unter: https://doi.org/10.21256/zhaw-26147
Lehmann, Claude; Gehrig, Dennis; Holdener, Stefan; Saladin, Carlo; Monteiro, João Pedro; Stockinger, Kurt,

2022.

Building natural language interfaces for databases in practice [Paper].

In:

Proceedings of the 34th SSDBM.

34th International Conference on Scientific and Statistical Database Management (SSDBM), Copenhagen, Denmark, 6 - 8 July 2022.

Association for Computing Machinery.

Verfügbar unter: https://doi.org/10.1145/3538712.3538744
Amer-Yahia, Sihem; Koutrika, Georgia; Braschler, Martin; Calvanese, Diego; Lanti, Davide; Lücke-Tieke, Hendrik; Mosca, Alessandro; Mendes de Farias, Tarcisio; Papadopoulos, Dimitris; Patil, Yogendra; Rull, Guillem; Smith, Ellery; Skoutas, Dimitrios; Subramanian, Srividya; Stockinger, Kurt,

2021.

INODE : building an end-to-end data exploration system in practice.

SIGMOD Record.

50(4), S. 23-29.

Verfügbar unter: https://doi.org/10.21256/zhaw-23624
Brunner, Ursin; Stockinger, Kurt,

2021.

ValueNet : a natural language-to-SQL system that learns from database information [Paper].

In:

Proceedings of the 37th ICDE.

37th International Conference on Data Engineering (ICDE), Chania, Greece, 19-22 April 2021.

IEEE.

S. 2177-2182.

Verfügbar unter: https://doi.org/10.1109/ICDE51399.2021.00220
Smith, Ellery; Papadopoulos, Dimitris; Braschler, Martin; Stockinger, Kurt,

2021.

LILLIE : information extraction and database integration using linguistics and learning-based algorithms.

Information Systems.

105.

Verfügbar unter: https://doi.org/10.1016/j.is.2021.101938
Deriu, Jan Milan; Mlynchyk, Katsiaryna; Schläpfer, Philippe; Rodrigo, Alvaro; von Grünigen, Dirk; Kaiser, Nicolas; Stockinger, Kurt; Agirre, Eneko; Cieliebak, Mark,

2020.

A methodology for creating question answering corpora using inverse data annotation [Paper].

In:

Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.

58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), online, 5-10 July 2020.

Association for Computational Linguistics.

S. 897-911.

Verfügbar unter: https://doi.org/10.18653/v1/2020.acl-main.84

Zurück