Visuelle Intelligenz und Anwendungen | ZHAW Institut für Datenanalyse und Prozessdesign IDP

Da visuelle Daten zu einer der reichhaltigsten und komplexesten Informationsquellen werden, ist Visual Intelligence ein wichtiger Pfeiler der modernen Datenwissenschaft, der neue Wege zur Analyse, Modellierung und Kommunikation durch Bilder, Videos und immersive Umgebungen ermöglicht.

Forschung & Projekte

Lehre

Team

Watching the World

Maschinen das Sehen beibringen – und Menschen beim Verstehen helfen

Um ein Experte zu werden, muss man Fachwissen durch eine Kombination aus Kernkompetenzen (Wissen), praktischen Fähigkeiten und Praxiserfahrung entwickeln.

Unser Ansatz zur Entwicklung menschlicher Fähigkeiten legt den Schwerpunkt auf kollaboratives und kommunikatives Lernen, unterstützt durch interaktive und immersive Technologien. Wir ermöglichen Schulungsmöglichkeiten, die die physische und virtuelle Welt verbinden und so tiefgreifende und nachhaltige Lernergebnisse gewährleisten.
Unsere Forschungsinitiativen erweitern die Grenzen des Möglichen. Arbeiten Sie mit renommierten Dozenten an Projekten in den Bereichen automatisierte Bildinterpretation, maschinelles Lernen, visuelle Kommunikation und mehr.
Unsere Arbeit bleibt nicht nur im Labor – sie hat Auswirkungen auf die Praxis und beeinflusst alles von der medizinischen Diagnostik bis hin zur Kunst.

News

Forschung & Projekte

Visual Interestingness

DALL·E 3: “Give me an image which shows the contrast between interesting and uninteresting [...]”. In dem erzeugten Bild sind die interessanten Bereiche oft farbenfroh gestaltet, meist mit vielen Objekten überladen und insgesamt recht komplex. Die uninteressanten Bereiche dagegen wirken in der Regel schlicht, mit wenigen Objekten, monoton und farbarm, was einen Eindruck von Einfachheit vermittelt. Würden Sie dem zustimmen? Lässt sich dieses Muster allgemein beobachten?

Interessantheit – die Fähigkeit, Aufmerksamkeit zu erregen und zu halten

Unser Alltag wird stark davon geprägt, was wir sehen und konsumieren. Einerseits wählen wir anhand unserer persönlichen Interessen aus, welchen Nachrichten, Filmen oder Ereignissen wir unsere Aufmerksamkeit schenken. Andererseits reagieren die meisten Menschen sehr empfänglich auf äußere visuelle Reize, die ihr Verhalten beeinflussen können. Um besser zu verstehen, was menschliche Aufmerksamkeit und Interesse auslöst – sei es zur Erforschung der visuellen Wahrnehmung oder zu kommerziellen Zwecken – ist es besonders wichtig, die Mechanismen hinter der Wahrnehmung von „Interessantheit“ zu erfassen.

So könnten Modelle, die vorhersagen, was Menschen als interessant empfinden, beispielsweise genutzt werden, um Videostreams in der Überwachung automatisch zu analysieren und relevante Ereignisse hervorzuheben. Ebenso können sie im Arbeitsalltag unterstützen, indem automatisch wichtige Fakten hervorgehoben werden, die sonst übersehen werden könnten. Dies ist besonders in zeitkritischen Situationen von Bedeutung, in denen ein schneller Überblick über viele Informationen erforderlich ist – etwa in der medizinischen Notfallversorgung.

F. Abdullahu and H. Grabner, Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests, In Proc. International Conference on Computer Vision (ICCV), 2025, Data and Code on GitHub
F. Abdullahu and H. Grabner, Commonly Interesting Images, In Proc. European Conference on Computer Vision (ECCV), 2024, Data and Code on GitHub
T. Koller, and H. Grabner, Who wants to be a click-millionaire? On the influence of thumbnails and captions. In Proc. IEEE International Conference on Pattern Recognition (ICPR), 2022

Der Effekt der impliziten Bewegung

In den letzten Jahrzehnten hat visuelle Bildsprache die moderne Werbung dominiert. Häufig werden Menschen, Tiere oder Gegenstände in Bewegung dargestellt. Frühere Studien zeigen, dass implizite Bewegungsbilder die Überzeugungskraft erhöhen, jedoch ist unklar, ob dieser Effekt nur für Menschen oder auch für Tiere und unbelebte Objekte gilt. In sieben Experimenten liefern wir robuste Evidenz, dass sowohl animierte als auch unbelebte Bewegungen die Werbewirksamkeit steigern, vermittelt durch gesteigertes Engagement. Außerdem beeinflusst die Komplexität der Bewegung das Ausmaß des Engagements: Nichtlineare, komplexe Bewegungen erzeugen stärkere Aufmerksamkeit als einfache, lineare. Diese Ergebnisse liefern eine empirisch fundierte Grundlage für die Nutzung impliziter Bewegungsbilder in der Werbung.

ZHAW Medienlinguistik
F. Bünzli, W. Weber, F. Abdullahu, and H. Grabner, Depicting Humans, Animals, and Objects in Motion: The Effect of Implied Motion on Engagement and Persuasion in Advertising? Journal of Advertising, 2024
F. Bünzli, W. Weber, F Abdullahu, and H. Grabner, Do Vectors of Motion Make Advertisements More Interesting? Annual Conference of the International Communication Association (ICA), 2023

Watching the World

Im Moment erfassen tausende öffentlich zugängliche Netzwerkkameras Bilder aus aller Welt. Kürzlich haben wir selbst vier dieser Kameras besucht. Es war ein aufregender, inspirierender und höchst kreativer "reisender" Team-Retreat quer durch die Schweiz – eine Entdeckungsreise im Rahmen des Kunst-trifft-Wissenschaft-Projekts Watching the World.

Alle Bilder sind gleich, aber einige sind gleicher.

„WATCHING THE WORLD, The Encyclopedia Of the Now“ ist ein Kunst-, Fotografie-, Ausstellungs-, KI-, Big-Data- und Online-Projekt, das ausschließlich offene Datenquellen nutzt. Es fotografiert die Welt rund um die Uhr in Echtzeit über öffentlich zugängliche Webcams und präsentiert diese Aufnahmen auf der Website in verschiedenen Modi. So entsteht mithilfe von KI eine neue Sichtweise, eine neue Form der Fotografie.

Auf der Webseite https://webcamaze.engineering.zhaw.ch werden mehr als 10.000 Webcams in Echtzeit analysiert. Würden die Bilder ausgedruckt, würden sie täglich bis zur Höhe der Großen Pyramide von Gizeh reichen! Ohne Methoden des maschinellen Lernens und der automatischen Bildverarbeitung könnten solche Datenmengen nicht mehr bewältigt werden.

Die meiste Zeit gibt es nichts „Interessantes“ zu sehen – doch wenn man zur richtigen Zeit am richtigen Ort ist, zeigen sich überraschende, unerwartete, bizarre oder vielleicht fragwürdige Bilder, die zum Nachdenken und Diskutieren einladen.

„SPY BOT 2000 – Wir glauben, dass die Version des künstlerischen Quatsches Live-Webcam-Bilder aus aller Welt lädt und eine KI sie in Kategorien sortieren lässt. Eigentlich eine ziemlich interessante Nutzung von KI zur Abwechslung, auch wenn es ein wenig unheimlich ist.“ – b3ta.com

1 camera, 1 bird, 1 image

AWARD: SNSF Scientific Image Competition 2025 – Juryauszeichnung

Kommentar der Jury: Eingefroren im Flug und der Schwerkraft trotzend, bietet uns dieser Vogel einen augenzwinkernden Blick auf den Beobachter, der selbst beobachtet wird. Die teils humorvolle, teils absurde Aufnahme thematisiert die Rolle der künstlichen Intelligenz und die Flut an Bildern, die durch die weltweit proliferierenden Webcams und Überwachungskameras erzeugt werden, und hinterfragt die moderne Praxis der Fotografie.

IMMERSE: Immersive Bildung und wissenschaftliche Entdeckungen

Lehren und wissenschaftliche Entdeckungen über Grenzen hinaus.

Extended-Reality-(XR-)Lernumgebungen fördern Neugier, Exploration und Kreativität bei Lernenden und ermöglichen Lehrenden, ihre Themen immersiv und interaktiv zu vermitteln.

In enger Zusammenarbeit mit der Universität Zürich (UZH) und der Pädagogischen Hochschule Zürich (PH Zürich) sowie mit Praxispartnern wie Microsoft, Siemens und Magic Leap werden Ideen von der Konzept- und Prototypenphase zu voll funktionsfähigen Anwendungen entwickelt – in unterschiedlichsten Bildungsbereichen.

Die Anwendungen sind plattformübergreifend nutzbar: Einzelpersonen über VR- oder AR-Headsets, Gruppen über Smartphones oder ganze Klassenräume über 3D-Beamer. So lassen sich Lerninhalte aus neuen, spannenden Perspektiven erkunden.

PROFICIENCY: Chirurgische Kompetenz

Wir entwickeln einen AR-basierten Simulator für die Ausbildung in der offenen (orthopädischen) Chirurgie. Der Simulator kombiniert adaptive AR-Anleitungen mit KI-gestützter Analyse menschlicher Aktivitäten und bietet damit einen bedeutenden Fortschritt gegenüber herkömmlichem Training. Ziel ist es, die Benutzerfreundlichkeit und Effektivität chirurgischer Trainingssimulatoren deutlich zu verbessern.

Dieses Projekt leitet einen Paradigmenwechsel in der chirurgischen Ausbildung ein – für optimal vorbereitete Chirurgen und mehr Patientensicherheit.

Traditionelle Ausbildungsmodelle wie „See one, do one, teach one“ entsprechen heute nicht mehr den Anforderungen und Möglichkeiten. Unter der Leitung von Kantonsspital St. Gallen, Centre Hospitalier Universitaire Vaudois und Balgrist Universitätsspital entwickeln Partner wie VirtaMed, Microsoft Mixed Reality & AI Lab Zürich, OramaVR und Atracsys in Zusammenarbeit mit ETH Zürich und ZHAW innovative, standardisierte Trainingswerkzeuge – von VR-Simulationen über AR-unterstützte Übungen bis hin zu High-End-Simulatoren. Das neue, integrative Trainingsparadigma wird an Laparoskopie und Arthroskopie demonstriert und lässt sich auf weitere chirurgische Eingriffe übertragen, setzt damit neue Standards in der Schweiz und international.

R. Lekar, T. Gerth, S. Prokudin, M. Seibold, R. Bürgin, B. Vella, A. Hoch, S. Tang, P. Fürnstahl, and H. Grabner. Enhancing Orthopedic Surgical Training With Interactive Photorealistic 3D Visualization. Annual Meeting of the International Society for Computer Assisted Orthopaedic Surgery (CAOS), 2025, project
L. Wu, M. Seibold, N. Cavalcanti, J. Hein, T. Gerth, R. Lekar, A. Hoch, L. Vlachopoulos, H. Grabner, P. Zingg, M. Farshad, and P. Fürnstahl, A novel augmented reality-based simulator for enhancing orthopedic surgical training. Computers in Biology and Medicine, Volume 185, 2025
https://www.surgicalproficiency.ch
ZHAW Impact
OR-X, ROCS Balgrist
ETH Computer Vision and Learning Group

Mobiles Monitoring von Krafttraining

Wir entwickeln validierte, tragbare Methoden, um Anpassungen im Krafttraining zu überwachen und vorherzusagen.

Krafttraining ist ein zentraler Baustein für Gesundheit und sportliche Leistungsfähigkeit, wird aber weltweit noch zu wenig praktiziert. Durch Wearables, Bewegungsanalyse und prädiktive Modelle wollen wir ein longitudinales Monitoring von Krafttraining ermöglichen und digitale Zwillinge erstellen, die Trainingsreaktionen über die Zeit simulieren. In unserem nächsten Projekt setzen wir Wearable-Monitoring direkt in Fitnessstudios ein, erfassen Bewegungsqualität, Lastmanagement und Ermüdung in Echtzeit und liefern so individuelles Feedback für eine sichere Trainingsprogression.

B. Achermann, N. Regazzi, R. Heynen, D, Lüdin, J. Suter, A. Drewek, and S. Lorenzetti, From Monitoring to Prediction: Velocity-Based Strength Training in Female Floorball Athletes. Sports. 2025
J. Jaeggi, B. Achermann, and S. Lorenzetti, Female Lower Body Muscle Forces: A Musculoskeletal Modeling Comparison of Back Squats, Split Squats and Good Mornings, Journal of Functional Morphology and Kinesiology. 2024
B. Achermann, K. Oberhofer, S. Ferguson, and S. Lorenzetti. Velocity-Based Strength Training: The Validity and Personal Monitoring of Barbell Velocity with the Apple Watch. Sports. 2023.

Lehre

“Wir bringen Studierenden bei, wie sie Maschinen das Sehen beibringen.”

Lehrveranstaltungen

Zusammen mit dem Institut für Informatik bieten wir Grundlagen and Fortgeschritten Module im Bereich Visual Computing an.

Angebote für studentische Projekte (BSc & MSc)

Nachfolgend finden Sie eine Auswahl an angebotenen Studierendenprojekten. Projekt- und Bachelorarbeiten finden Sie ebenfalls bei Complesis. Beispiel von abgeschossenen Masterarbeiten des Master of Science in Engineering (MSE) finden Sie unter dem Profile Data Science. Gerne besprechen wir auch Ihre eigenen Ideen!

Interaktive Spielwand – Tic Tac Toe mit Computer Vision
Kontakt: martin.frey@zhaw.ch

Dieses Projekt erforscht eine neuartige interaktive Spielwand, bei der Tic Tac Toe gespielt wird, indem ein Fußball auf Projektionsflächen getreten wird. Das System nutzt ausschließlich Kameras, einen Projektor und Computer Vision – ohne zusätzliche Sensoren – und erkennt Ballaufprälle, um an der getroffenen Stelle ein X oder O anzuzeigen. So wird ein intuitives, digitales Spiel ermöglicht.

Watching the World – Die Nadel im Heuhaufen finden
Kontakt: fitim.abdullahu@zhaw.ch

Dieses Projekt erkundet die Welt über mehr als 10.000 öffentlich zugängliche Webcams. Bei einer Flut von über 1 Million Bildern pro Tag sind die meisten Szenen gewöhnlich. Mithilfe von KI und Computer Vision wollen wir seltene und interessante Momente in Echtzeit erkennen – die “Nadel im Heuhaufen” finden.

Nail It! – Traditionelles Spiel neu interpretiert in AR
Kontakt: tatiana.gerth@zhaw.ch

Mit markerloser AR und Bewegungssensoren bringt dieses Projekt das traditionelle Spiel „Nageln“ in die erweiterte Realität. Mit nur einem Smartphone hämmern die Spieler abwechselnd virtuelle Nägel in einen Baumstamm – keine Controller, keine Accounts, kein Setup. Das Smartphone wird herumgereicht und ermöglicht so ein unterhaltsames, intuitives Gruppenerlebnis.

Fenster zur Welt
Kontakt: matthias.karst@zhaw.ch

Bauen Sie eine Installation mit einem Bildschirm, einer Gesichts-Tracking-Kamera und KI-basierter Bildsegmentierung, die als virtuelles Fenster zu jedem Ort der Welt fungiert. Bewegen Sie Ihren Kopf vor dem Fenster, muss sich das angezeigte Bild entsprechend mitbewegen – genau wie bei einem echten Fenster.

Den Verdächtigen finden
Kontakt: matthias.karst@zhaw.ch

Entwickeln Sie ein VR-Spiel, in dem Sie nach Verdächtigen auf der ganzen Welt suchen, unter Verwendung von Tausenden von Webcams. Wählen Sie ein Objekt in einem Bild aus und erhalten Sie Dutzende neuer Bilder, die ein Objekt mit ähnlicher Form, Farbe oder Typ zeigen. Ausgehend von einem zufälligen Bild müssen Sie kluge Verbindungen herstellen, um den Verdächtigen zu finden.

Bewegungsklassifikation von Functional-Fitness-Videos
Kontakt: basil.achermann@zhaw.ch

Bei Functional-Fitness-Wettkämpfen qualifizieren sich Athletinnen und Athleten, indem sie Trainingsvideos einreichen, die anhand von Bewegungsstandards bewertet werden. Dieser Prozess bietet zwei Chancen: die Bewertungen mithilfe von Computer Vision zu automatisieren, um Effizienz und Objektivität zu steigern, und das Filmmaterial für die Sportwissenschaft zu nutzen.

Bewegungsklassifikation mit mobilen Messungen
Kontakt: basil.achermann@zhaw.ch

Wir nutzen IMU-Daten zur Erkennung menschlicher Aktivitäten und konzentrieren uns dabei auf kraft- und sportspezifische Bewegungen, um Leistung, Technik und Ermüdung zu analysieren. Welche Bewegungen interessieren Sie? Von feinmotorischen Fertigkeiten bis hin zu Ganzkörperbewegungen – wir freuen uns auf Ihre Ideen und Zusammenarbeit.

Team

„Grosses im Geschäft wird niemals von einer einzelnen Person erreicht, es wird von einem Team von Menschen verwirklicht.“ ― Steve Jobs

Assoziierte Mitglieder

Fabienne Bünzli, University of St. Gallen, Institute of Media and Communication Management, Jan. 2026
Wibke Weber, ZHAW School of Applied Linguistics, Institute of Applied Media Studies, Jan. 2026
Silvio Lorenzetti, ZHAW School of Engineering, Aug. 2026

Ehemalige Mitglieder

Fabienne Bünzli, Wissenschaftliche Mittarbeiterin, Jan. 2023 - Dez. 2025
Basil Achermann, PhD Student, Mai 2025 - Dez. 2025
Pascal Bühler, Wissenschaftlicher Assistent, Aug. 2022 - Aug. 2024
Romain Délèze, Wissenschaftlicher Assistent, Sep. 2022 - Aug. 2024
Raphael Schnyder, Entrepreneurship Fellow, Dez. 2022 - Nov. 2023
Michele Wieland, Wissenschaftlicher Assistent, Jan. 2021 - Aug. 2023
Funk Te Yiea, Wissenschaftlicher Mittarbeiter, Jan. 2021 - Okt. 2022