akos-logo.png

AKOS: Audio-Korrelation und -Synthese

(2022 – 2026)

Ziel des Projekts ist ein Modell, das voneinander getrennte Audiokanäle korreliert und zeitlich korrekt synchronisiert. Hierfür werden Methoden aus dem Bereich des Deep Learning angewendet, die große Mengen an annotierten Trainingsbeispielen benötigen. In einem Zwischenschritt sollen deshalb synthetische Trainingsdaten mithilfe eines zweiten Modells generiert werden.

Aufgaben und Ziele

Die rasante Entwicklung und Verfügbarkeit von Deep-Learning-Modellen hat die Bandbreite an verarbeitbaren Medien und Anwendungsszenarien erweitert und deren Effektivität signifikant gesteigert. Das erfolgreiche Training dieser Modelle ist allerdings eng an die Qualität und Menge der Trainingsdaten geknüpft, deren Sammlung und Annotation sehr aufwendig sein kann. Im Projekt AKOS soll dieses Problem durch synthetische Trainingsdaten gelöst werden, um die Entwicklung eines Deep-Learning-Modells zur Audio-Korrelation zu ermöglichen.

Im laufenden Projekt wurde bereits eine große und repräsentative Datenbasis aus realen Audiomaterialen erstellt, um ein breites Spektrum an Charakteristiken abzudecken. Diese Datenbasis diente dem Training eines neuronalen Netzes, das Audiodaten mit spezifischen Eigenschaften nachbilden kann.

Die synthetischen Daten werden für das Training eines zweiten neuronalen Netzes genutzt, das die Korrelation von Audiodaten automatisiert durchführt. Final wird das trainierte Modell auf annotierten Testdaten angewendet und evaluiert.
Nach Auswertung der Evaluationsergebnisse müssen einzelne Arbeitsschritte gegebenenfalls angepasst und wiederholt werden, um die Effektivität der Modelle zu erhöhen.

< Zurück zur Übersicht Grafik: Adobe Stock/BAIVECTOR