Eingabe löschen

Kopfbereich

Schnellnavigation

Hauptnavigation

Bachelorarbeit: DB4Dummies – Interaktive Konstruktion von Datenbank-Abfragen

Eine interaktive Suchmaschine für Datenbanken

Unzählige Daten sind in den Datenbanken verschiedener Organisationen gespeichert. Zugänglich sind sie aber meist nur für einige Experten. Um diesen Zugang zu erleichtern, haben die Informatik-Absolventen Nicolas Kaiser und Philippe Schläpfer eine ausgeklügelte Applikation entwickelt.

Damit beschäftigen sich Informatikerinnen und Informatiker seit langem und immer wieder: Wie können Informationen aus einer Datenbank einfach und ohne spezifisches Expertenwissen abgefragt werden? Nicolas Kaiser und Philippe Schläpfer sind mit ihrer Arbeit einer Lösung auf der Spur. Ihre Applikation soll dereinst dazu führen, dass in Datenbanken ähnlich leicht gesucht werden kann wie über Suchmaschinen im Internet. Heute braucht es für die zielgerichtete Suche in einer grossen Datenbank spezifische Kenntnisse, weil die Datenbanken nur eine «Datenbanksprache», beispielsweise SQL, verstehen. Will also zum Beispiel eine CEO einer grossen Firma wissen, wie die Verkaufszahlen eines spezifischen Produktes in einem bestimmten Land im vergangenen Jahr ausgesehen haben, muss sie einen Experten damit beauftragen, diese aus der firmeninternen Datenbank herauszufiltern.

Die Suche nach Brad Pitt

Das könnte effizienter vor sich gehen, finden Nicolas Kaiser und Philippe Schläpfer. Es wäre doch angenehm, die CEO könnte direkt auf die Datenbank zugreifen, über eine Suchfunktion in natürlicher Sprache nach den Zahlen suchen und das gewünschte Ergebnis einsehen. Das Annotationstool der beiden Informatik-Absolventen soll deshalb dafür sorgen, dass Datenbanken auch solche Abfragen verstehen können. Anstatt mit Verkaufsstatistiken arbeiteten sie mit Filmdaten, da ihnen für ihre Arbeit eine entsprechende Datenbank zur Verfügung gestellt wurde. So machten sich Nicolas Kaiser und Philippe Schläpfer zum Beispiel daran, herauszufiltern, in welchen Filmen Brad Pitt bisher mitspielte, deren Budgets grösser waren als 100 Millionen Dollar. Eine Aufgabe, die laut Philippe Schläpfer durchaus willkommen war: «Wir sind Filmliebhaber und ab und zu auch im Kino anzutreffen.»

«Noch muss das Annotationstool erst einmal Trainingsdaten generieren. Später sollte die Applikation auf jede vorhandene Datenbank angewendet werden können.»

Philippe Schläpfer

Alles wird aufgezeichnet

Trotzdem ging es in ihrer Arbeit natürlich nicht um Filme. Ihre Applikation zeichnet alle Einzelschritte des Benutzers in der Datenbanksuche auf. «Das ist die wichtigste Funktion, die wir entwickelt haben. In Zukunft können diese Einzelschritte als Trainingsdaten in ein Machine Learning-Modell fliessen. Somit könnte die Suchfunktion über Machine Learning mit jeder einzelnen Suchanfrage verbessert werden», sagt Nicolas Kaiser. Noch müssen die Fragen in einzelne Schritte übersetzt werden. So lässt man die Applikation zuerst alle Filme aus der Datenbank filtern, in denen Brad Pitt mitspielt. In einem zweiten Schritt muss sie diejenigen Filme herausfiltern, die ein Budget von mehr als 100 Millionen Dollar vertilgten. Hinter diesen Schritten stehen mehrere Operationen, die jeweils in Logfiles abgespeichert werden. «Wenn man genug solcher Fragen beantwortet und genug Logfiles generiert hat, soll ein Machine Learning-Algorithmus Muster darin erkennen und mit der Zeit selber Fragen beantworten können», sagt Philippe Schläpfer.

Daten fürs Training

Im jetzigen Zustand steht das neue Tool für das Speichern von Suchabfragen zur Verfügung. Nun sollten möglichst viele Nutzerinnen und Nutzer ihre Fragen ausführen. Wenn die Applikation soweit ist, wird die Suchabfrage auch über natürliche Sprache funktionieren, ähnlich wie wir es uns von Google gewöhnt sind. Im Unterschied dazu befindet sich die Datensammlung in einer strukturierten Datenbank, die nicht online zu finden ist. Die Applikation liefert ausserdem keine nach bestimmten Kriterien sortierte Ergebnisliste, sondern ein zielgenaues Ergebnis auf eine spezifische Frage. «Unsere Applikation kann auf jede vorhandene Datenbank angewendet werden. Um in Zukunft auch Machine Learning zu ermöglichen, muss die Datenbank mit möglichst vielen Abfragen trainiert werden», sagt Philippe Schläpfer. Er freut sich darauf, das Tool weiter zu verbessern: Nach dem Studium arbeitet er am Institut für angewandte Informationstechnologie (InIT), wo er gemeinsam mit Kollegen sowie künftigen Studierenden die Applikation weiterentwickeln wird.