INODE – Intelligent Open Data Exploration (EU Horizon 2020)
Beschreibung
In den letzten zehn Jahren ist die Datenmenge auch in der Wissenschaft enorm gewachsen. Zudem ertönt immer lauter die Forderung nach einer Demokratisierung und allgemeiner Zugänglichkeit von Forschungsresultaten, die häufig mittels öffentlicher Gelder zu Stande gekommen sind. Doch gerade im Umfeld wissenschaftlicher Datenbanken ist die Suche nach Informationen schwierig. Um spezifische Daten zu finden, müssen Suchende über hochspezialisierte Informatik-Kenntnisse verfügen. Dies führt dazu, dass viele wertvolle Erkenntnisse nur unzureichend in die Praxis einfliessen.Um wissenschaftliche Daten besser nutzbar zu machen, soll eine neuartige Suchmaschine namens INODE (Intelligent Open Data Exploration) entwickelt werden, die intuitiv zu bedienen ist. So können beispielsweise in der Krebsforschung tätige Ärzte bestimmte Bioinformatikdaten finden, die Einfluss auf den Erfolg von Therapien haben, derweil Astrophysikerinnen die Verschiebungen von Sternen ausfindig machen können.Im Gegensatz zu herkömmlichen Suchmaschinen soll INODE eine Art Konversation mit den Benutzenden führen, bei der schwierige Fragen schrittweise beantwortet werden. Dabei werden menschliche und künstliche Intelligenz miteinander kombiniert. Gleichzeitig wird das Instrument die Ergebnisse mit neuen Visualisierungsmethoden darstellen, die komplexe Zusammenhänge schneller und einfacher vermitteln.Das Projekt will die Forschung an der Schnittstelle zwischen künstlicher Intelligenz und Datenbanken vorantreiben. Damit das funktionieren kann, braucht es zuerst einmal ein Programm, welches die natürliche Sprache, in der ein Suchwort eingegeben wird, in Sekundenschnelle in eine Datenbanksprache übersetzt. Eine Herausforderung dabei ist, dass Begriffe in natürlicher Sprache –etwa Englisch oder Deutsch - häufig mehrdeutig sind. So kann zum Beispiel mit dem Wort Golf gleichzeitig eine Sportart, eine Automarke oder eine Meeresbucht gemeint sein. Bestehende Übersetzungsprogramme, die auf künstlicher Intelligenz basieren, lösen dieses Problem mit einem Algorithmus, der gängige Sprachmuster erkennt und auf der Basis von umfangreichen Schriften automatisch dazulernt. Diese Methode funktioniert im Fall der Datenbanksprache SQL aber nicht, weil es häufig noch keine Trainingsdaten gibt. Zudem können Datenbanken unterschiedlich strukturiert sei, wodurch ein bestimmter Algorithmus nicht überall einsetzbar ist. Deshalb verfolgen die Forschenden einen sogenannten Hybrid-Ansatz: Am Anfang werden Suchwörter in einen bestimmten Code übersetzt, um Abfragen anhand bestimmter Regeln als SQL-Anweisung zu erzeugen. Das Datenbanksystem protokolliert jede Suche automatisch und die NutzerInnen melden zurück, ob die automatisch generierte SQL-Anweisung und das Ergebnis korrekt sind. So entstehen immer mehr Trainingsdaten, mit denen das System dazulernen kann. Mit der Zeit soll das System ganz auf dem Machine Learning basieren.Das Institut für angewandte Informationstechnologie arbeitet mit acht Forschungspartnern aus verschiedenen europäischen Ländern zusammen. Das Horizon 2020 Projekt läuft von 2019 bis 2022.
Eckdaten
Projektleitung
Projektteam
Prof. Dr. Martin Braschler, Ursin Brunner, Catherine Kosten, Dr. Farhad Nooralahzadeh, Ana-Claudia Sima, Ellery Smith, Yi Zhang
Projektpartner
ATHENA Research; Centre national de la recherche scientifique CNRS; Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.; Free University of Bozen-Bolzano; Infili Technologies P.C.; Max-Planck-Gesellschaft; SIRIS Academic SL; Swiss Institute of Bioinformatics SIB
Projektstatus
abgeschlossen, 11/2019 - 10/2022
Institut/Zentrum
Institut für Informatik (InIT)
Drittmittelgeber
Horizon 2020 / Projekt-Nr. 863410
Projektvolumen
5'732'000 EUR
Weiterführende Dokumente und Links
Publikationen
-
Evaluating the data model robustness of Text-to-SQL systems based on real user queries
2025 Fürst, Jonathan; Kosten, Catherine; Nooralahzadeh, Farhard; Zhang, Yi; Stockinger, Kurt
-
ScienceBenchmark : a complex real-world benchmark for evaluating natural language to SQL systems
2024 Zhang, Yi; Deriu, Jan Milan; Katsogiannis-Meimarakis, George; Kosten, Catherine; Koutrika, Georgia; Stockinger, Kurt
-
Data-driven information extraction and enrichment of molecular profiling data for cancer cell lines
2024 Smith, Ellery; Paloots, Rahel; Giagkos, Dimitris; Baudis, Michael; Stockinger, Kurt
-
Spider4SPARQL : a complex benchmark for evaluating knowledge graph question answering systems
2024 Kosten, Catherine; Cudré-Mauroux, Philippe; Stockinger, Kurt
-
Improving NL-to-Query systems through re-ranking of semantic hypothesis
2022 von Däniken, Pius; Deriu, Jan Milan; Agirre, Eneko; Brunner, Ursin; Cieliebak, Mark; Stockinger, Kurt
-
Building natural language interfaces for databases in practice
2022 Lehmann, Claude; Gehrig, Dennis; Holdener, Stefan; Saladin, Carlo; Monteiro, João Pedro; Stockinger, Kurt
-
LILLIE : information extraction and database integration using linguistics and learning-based algorithms
2021 Smith, Ellery; Papadopoulos, Dimitris; Braschler, Martin; Stockinger, Kurt
-
ValueNet : a natural language-to-SQL system that learns from database information
2021 Brunner, Ursin; Stockinger, Kurt
-
INODE : building an end-to-end data exploration system in practice
2021 Amer-Yahia, Sihem; Koutrika, Georgia; Braschler, Martin; Calvanese, Diego; Lanti, Davide; Lücke-Tieke, Hendrik; Mosca, Alessandro; Mendes de Farias, Tarcisio; Papadopoulos, Dimitris; Patil, Yogendra; Rull, Guillem; Smith, Ellery; Skoutas, Dimitrios; Subramanian, Srividya; Stockinger, Kurt
-
A methodology for creating question answering corpora using inverse data annotation
2020 Deriu, Jan Milan; Mlynchyk, Katsiaryna; Schläpfer, Philippe; Rodrigo, Alvaro; von Grünigen, Dirk; Kaiser, Nicolas; Stockinger, Kurt; Agirre, Eneko; Cieliebak, Mark