AI4Flex.Data: KI-gesteuerte Cross-Engine-Optimierung paralleler Workloads (SNF)

Moderne Datensysteme sind fragmentiert und erschweren effiziente, portable Workloads. Eine gemeinsame Abstraktion fehlt. AI4Flex.Data entkoppelt Definition und Ausführung, nutzt KI zur Engine‑Auswahl und ermöglicht flexible, optimierte Multi‑Engine‑Verarbeitung.

Eckdaten

Kontakt

Beschreibung

Moderne Datenökosysteme basieren auf einer wachsenden Anzahl spezialisierter Verarbeitungsmodule, die jeweils für bestimmte Arten von Workloads optimiert sind. Diese Fragmentierung zwingt Entwickler dazu, Workloads wiederholt anzupassen oder neu zu schreiben, führt zu operativen Silos und zu einer ineffizienten Ausführung, wenn heterogene Aufgaben – wie Datenbankabfragen in Kombination mit Machine-Learning-Operationen – innerhalb eines einzigen Systems verarbeitet werden müssen. Mit steigendem Datenvolumen und zunehmender Komplexität der Workloads beeinträchtigen diese Einschränkungen zunehmend die Leistung, Portabilität und Kosteneffizienz.

Derzeit gibt es keine einheitliche Abstraktion, die es ermöglicht, Workloads einmalig zu definieren und flexibel über mehrere Engines hinweg auszuführen. Obwohl bestehende Systeme grundlegende interne Komponenten gemeinsam nutzen, arbeiten aktuelle Optimierer nur innerhalb der Grenzen einer einzelnen Engine und können Operationen nicht dynamisch den Engines zuweisen, auf denen sie am besten laufen. Infolgedessen bleiben Unternehmen an bestimmte Anbieter gebunden, sehen sich mit langen und kostspieligen Migrationszyklen konfrontiert und verlieren die Möglichkeit, grosse Leistungsunterschiede zwischen den Systemen zu nutzen.

In diesem Projekt entwerfen und implementieren wir AI4Flex.Data, eine Virtualisierungsschicht, die die Spezifikation der Arbeitslast (Workloads) von der Ausführung entkoppelt. Sie übersetzt Workloads aus Schnittstellen wie SQL, Spark, Text-to-SQL oder visuellen No-Code-Tools in eine gemeinsame Zwischenrepräsentation und ermöglicht so eine nahtlose Portabilität. KI-gesteuerte Kosten- und Leistungsmodelle weisen dann jedem Operator die am besten geeignete Engine zu und legen optimale Bereitstellungsstrategien fest. Das Projekt entwickelt lernfähige Modelle, die auf unbekannte Workloads und Engines verallgemeinert werden können, und führt eine Pipeline zur Generierung synthetischer Workloads ein, um deren Training zu unterstützen. AI4Flex.Data bietet letztlich einen systematischen Rahmen für die Bewertung der Leistung gelernter Kostenmodelle in realen Szenarien der Multi-Engine-Optimierung.