INODE – Intelligent Open Data Exploration (EU Horizon 2020)
Auf einen Blick
- Projektleiter/in : Prof. Dr. Kurt Stockinger
- Projektteam : Prof. Dr. Martin Braschler, Ursin Brunner, Catherine Kosten, Farhad Nooralahzadeh, Ana-Claudia Sima, Ellery Smith, Yi Zhang
- Projektvolumen : EUR 5'732'000
- Projektstatus : abgeschlossen
- Drittmittelgeber : EU und andere Internationale Programme (Horizon 2020 / Projekt-Nr. 863410)
- Projektpartner : ATHENA Research, French National Centre for Scientific Research CNRS, Fraunhofer-Gesellschaft, Free University of Bozen-Bolzano, Infili Technologies P.C., Max-Planck-Gesellschaft, SIRIS Academic SL, Swiss Institute of Bioinformatics SIB
- Kontaktperson : Kurt Stockinger
Beschreibung
In den letzten zehn Jahren ist die Datenmenge auch in der Wissenschaft enorm gewachsen. Zudem ertönt immer lauter die Forderung nach einer Demokratisierung und allgemeiner Zugänglichkeit von Forschungsresultaten, die häufig mittels öffentlicher Gelder zu Stande gekommen sind. Doch gerade im Umfeld wissenschaftlicher Datenbanken ist die Suche nach Informationen schwierig. Um spezifische Daten zu finden, müssen Suchende über hochspezialisierte Informatik-Kenntnisse verfügen. Dies führt dazu, dass viele wertvolle Erkenntnisse nur unzureichend in die Praxis einfliessen. Um wissenschaftliche Daten besser nutzbar zu machen, soll eine neuartige Suchmaschine namens INODE (Intelligent Open Data Exploration) entwickelt werden, die intuitiv zu bedienen ist. So können beispielsweise in der Krebsforschung tätige Ärzte bestimmte Bioinformatikdaten finden, die Einfluss auf den Erfolg von Therapien haben, derweil Astrophysikerinnen die Verschiebungen von Sternen ausfindig machen können. Im Gegensatz zu herkömmlichen Suchmaschinen soll INODE eine Art Konversation mit den Benutzenden führen, bei der schwierige Fragen schrittweise beantwortet werden. Dabei werden menschliche und künstliche Intelligenz miteinander kombiniert. Gleichzeitig wird das Instrument die Ergebnisse mit neuen Visualisierungsmethoden darstellen, die komplexe Zusammenhänge schneller und einfacher vermitteln. Das Projekt will die Forschung an der Schnittstelle zwischen künstlicher Intelligenz und Datenbanken vorantreiben. Damit das funktionieren kann, braucht es zuerst einmal ein Programm, welches die natürliche Sprache, in der ein Suchwort eingegeben wird, in Sekundenschnelle in eine Datenbanksprache übersetzt. Eine Herausforderung dabei ist, dass Begriffe in natürlicher Sprache –etwa Englisch oder Deutsch - häufig mehrdeutig sind. So kann zum Beispiel mit dem Wort Golf gleichzeitig eine Sportart, eine Automarke oder eine Meeresbucht gemeint sein. Bestehende Übersetzungsprogramme, die auf künstlicher Intelligenz basieren, lösen dieses Problem mit einem Algorithmus, der gängige Sprachmuster erkennt und auf der Basis von umfangreichen Schriften automatisch dazulernt. Diese Methode funktioniert im Fall der Datenbanksprache SQL aber nicht, weil es häufig noch keine Trainingsdaten gibt. Zudem können Datenbanken unterschiedlich strukturiert sei, wodurch ein bestimmter Algorithmus nicht überall einsetzbar ist. Deshalb verfolgen die Forschenden einen sogenannten Hybrid-Ansatz: Am Anfang werden Suchwörter in einen bestimmten Code übersetzt, um Abfragen anhand bestimmter Regeln als SQL-Anweisung zu erzeugen. Das Datenbanksystem protokolliert jede Suche automatisch und die NutzerInnen melden zurück, ob die automatisch generierte SQL-Anweisung und das Ergebnis korrekt sind. So entstehen immer mehr Trainingsdaten, mit denen das System dazulernen kann. Mit der Zeit soll das System ganz auf dem Machine Learning basieren. Das Institut für angewandte Informationstechnologie arbeitet mit acht Forschungspartnern aus verschiedenen europäischen Ländern zusammen. Das Horizon 2020 Projekt läuft von 2019 bis 2022.
Weiterführende Informationen
Publikationen
-
Fürst, Jonathan; Kosten, Catherine; Nooralahzadeh, Farhard; Zhang, Yi; Stockinger, Kurt,
2025.
Evaluating the data model robustness of Text-to-SQL systems based on real user queries [Paper].
In:
Proceedings of EDBT 2025.
28th International Conference on Extending Database Technology (EDBT), Barcelona, Spain, 25-28 March 2025.
Open Proceedings.
S. 158-170.
Advances in Database Technology ; 28.
Verfügbar unter: https://doi.org/10.48786/edbt.2025.13
-
Smith, Ellery; Paloots, Rahel; Giagkos, Dimitris; Baudis, Michael; Stockinger, Kurt,
2024.
Data-driven information extraction and enrichment of molecular profiling data for cancer cell lines.
Bioinformatics Advances.
4(1), S. vbae045.
Verfügbar unter: https://doi.org/10.1093/bioadv/vbae045
-
Zhang, Yi; Deriu, Jan Milan; Katsogiannis-Meimarakis, George; Kosten, Catherine; Koutrika, Georgia; Stockinger, Kurt,
2024.
ScienceBenchmark : a complex real-world benchmark for evaluating natural language to SQL systems.
Proceedings of the VLDB Endowment.
17(4), S. 685-698.
Verfügbar unter: https://doi.org/10.14778/3636218.3636225
-
Kosten, Catherine; Cudré-Mauroux, Philippe; Stockinger, Kurt,
2024.
Spider4SPARQL : a complex benchmark for evaluating knowledge graph question answering systems [Paper].
In:
2023 IEEE International Conference on Big Data (BigData).
IEEE International Conference on Big Data, Sorrento, Italy, 15-18 December 2023.
IEEE.
Verfügbar unter: https://doi.org/10.1109/BigData59044.2023.10386182
-
von Däniken, Pius; Deriu, Jan Milan; Agirre, Eneko; Brunner, Ursin; Cieliebak, Mark; Stockinger, Kurt,
2022.
Improving NL-to-Query systems through re-ranking of semantic hypothesis [Paper].
In:
Abbas, Mourad; Freihat, Abed Alhakim, Hrsg.,
Proceedings of the 5th International Conference on Natural Language and Speech Processing (ICNLSP 2022).
5th International Conference on Natural Language and Speech Processing (ICNLSP), online, 16-17 December 2022.
Association for Computational Linguistics.
S. 57-67.
Verfügbar unter: https://doi.org/10.21256/zhaw-26147
-
Lehmann, Claude; Gehrig, Dennis; Holdener, Stefan; Saladin, Carlo; Monteiro, João Pedro; Stockinger, Kurt,
2022.
Building natural language interfaces for databases in practice [Paper].
In:
Proceedings of the 34th SSDBM.
34th International Conference on Scientific and Statistical Database Management (SSDBM), Copenhagen, Denmark, 6 - 8 July 2022.
Association for Computing Machinery.
Verfügbar unter: https://doi.org/10.1145/3538712.3538744
-
Amer-Yahia, Sihem; Koutrika, Georgia; Braschler, Martin; Calvanese, Diego; Lanti, Davide; Lücke-Tieke, Hendrik; Mosca, Alessandro; Mendes de Farias, Tarcisio; Papadopoulos, Dimitris; Patil, Yogendra; Rull, Guillem; Smith, Ellery; Skoutas, Dimitrios; Subramanian, Srividya; Stockinger, Kurt,
2021.
INODE : building an end-to-end data exploration system in practice.
SIGMOD Record.
50(4), S. 23-29.
Verfügbar unter: https://doi.org/10.21256/zhaw-23624
-
Brunner, Ursin; Stockinger, Kurt,
2021.
ValueNet : a natural language-to-SQL system that learns from database information [Paper].
In:
Proceedings of the 37th ICDE.
37th International Conference on Data Engineering (ICDE), Chania, Greece, 19-22 April 2021.
IEEE.
S. 2177-2182.
Verfügbar unter: https://doi.org/10.1109/ICDE51399.2021.00220
-
Smith, Ellery; Papadopoulos, Dimitris; Braschler, Martin; Stockinger, Kurt,
2021.
Information Systems.
105.
Verfügbar unter: https://doi.org/10.1016/j.is.2021.101938
-
Deriu, Jan Milan; Mlynchyk, Katsiaryna; Schläpfer, Philippe; Rodrigo, Alvaro; von Grünigen, Dirk; Kaiser, Nicolas; Stockinger, Kurt; Agirre, Eneko; Cieliebak, Mark,
2020.
A methodology for creating question answering corpora using inverse data annotation [Paper].
In:
Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.
58th Annual Meeting of the Association for Computational Linguistics (ACL 2020), online, 5-10 July 2020.
Association for Computational Linguistics.
S. 897-911.
Verfügbar unter: https://doi.org/10.18653/v1/2020.acl-main.84