Automatisierte Extraktion und Identifikation von Musiktiteln aus Spielfilmen (soundtrackID )

Wir entwickeln ein End-to-End-System zur automatischen Erkennung, Segmentierung und Identifikation von Musik in Spielfilmen. Das Audio wird in Ein-Sekunden-Fenstern mit vortrainierten Modellen analysiert, zu Kandidatentracks zusammengeführt, geprüft und an externe APIs übermittelt; auf Basis der API-Ergebnisse evaluieren wir die Genauigkeit.

Eckdaten

Kontakt

Beschreibung

Dieses Forschungsprojekt zielt darauf ab, Musikstücke in Spielfilmen automatisch zu extrahieren, zu segmentieren und zu identifizieren. Das System ist als End-to-End-Pipeline mit einer einfachen webbasierten Benutzeroberfläche konzipiert und legt den Fokus auf praktische Umsetzbarkeit sowie die Evaluierung bestehender Modelle zur Musikerkennung und -identifikation.

Nutzer:innen interagieren mit dem System über eine Web-UI, über die sie eine Filmdatei hochladen können. Nach dem Upload wird die Audiospur automatisch aus dem Video extrahiert und unabhängig verarbeitet. Das Audio wird in feste Ein-Sekunden-Fenster segmentiert, um eine feinkörnige zeitliche Analyse zu ermöglichen.

Jedes Ein-Sekunden-Segment wird binär als Musik oder Nicht-Musik klassifiziert. Für diese Aufgabe werden moderne vortrainierte Modelle wie MTUCI/MusicDetection von Hugging Face eingesetzt. Diese Modelle liefern eine Wahrscheinlichkeitsbewertung für das Vorhandensein von Musik und ermöglichen so eine robuste Erkennung über verschiedene Genres und Klangumgebungen hinweg. Ein konfigurierbarer Schwellenwert erlaubt es Nutzer:innen, die Sensitivität der Musikerkennung manuell anzupassen und mit Praezisions-Recall-Kompromissen zu experimentieren.

Aufeinanderfolgende Segmente, die als Musik klassifiziert wurden, werden zu kontinuierlichen Bereichen zusammengeführt, die als Kandidaten für Musikstücke behandelt werden. Jeder erkannte Track wird als eigenständiger Audioclip extrahiert. Diese Clips stehen in der UI einzeln zur Wiedergabe und Überprüfung bereit, sodass Nutzer:innen die Qualität der Erkennung schnell beurteilen können.

Zur Musikidentifikation wird jeder extrahierte Track an eine oder mehrere externe Musik-Erkennungs-APIs gesendet (noch festzulegen). Das System unterstützt die parallele Nutzung mehrerer APIs, um Identifikationsgenauigkeit, Latenz und Robustheit zu vergleichen. Rückgegebene Metadaten – wie Titel, Künstler:in und Konfidenzwert – werden gesammelt und normalisiert.

Abschliessend werden die identifizierten Musiktitel in der UI neben den extrahierten Audiotracks angezeigt. Das Projekt dient als experimentelle Plattform zur Untersuchung der Musikerkennungsgenauigkeit in realen Filmaufnahmen, zur Bewertung der API-basierten Musikidentifikation und zur Analyse, wie Schwellenwerte und Segmentierungsstrategien die End-to-End-Ergebnisse beeinflussen.