Erster Platz beim CVPR-Wettbewerb 2025 Affective Behavior Analysis In-The-Wild

1 Mai 2025

Emotionale Mimikry, die menschliche Fähigkeit, den Ausdruck und die Gefühle anderer instinktiv zu spiegeln, ist nach wie vor ein Eckpfeiler der sozialen Interaktion, der Empathie und der Vertrauensbildung. In der diesjährigen Emotional Mimicry Intensity (EMI) Challenge, die auf dem 8. Affective Behavior Analysis in the Wild (ABAW) Workshop und Wettbewerb stattfand, belegte unser Forschungsteam den ersten Platz und demonstrierte damit seine Fortschritte beim Verständnis und der Modellierung dieses komplexen sozialen Verhaltens. Für diesen Wettbewerb wurden über 25 Stunden Videomaterial gesammelt, in denen die Teilnehmer Emotionen nachahmen und dann die Intensität ihrer Gefühle bewerten.

Das Team belegte auch den zweiten Platz bei der Herausforderung „Behavioral Ambivalence/Hesitancy“ (BAH), bei der es darum geht, subtile Anzeichen eines inneren Konflikts oder Zögerns in der Kommunikation zu erkennen. Für diese zweite Aufgabe werden 3,4 Stunden an kurzen Videos gesammelt, in denen die Teilnehmer Ambivalenz bzw. Unentschlossenheit zeigen. Beide Aufgaben werden auf der CVPR 2025 in Nashville vorgestellt. Diese Forschung wurde in Zusammenarbeit mit Tobias Hallmen und Elisabeth André von der Universität Augsburg sowie mit Robin-Nico Kampa, Fabian Deuser und Norbert Oswald von der Universität der Bundeswehr durchgeführt.

Während sich der letztjährige Beitrag ausschließlich auf die Audioanalyse des zur Verfügung gestellten Videos konzentrierte, wurde der diesjährige Ansatz auf die textuelle und visuelle Modalität erweitert. Für die textuelle Modalität verwendeten wir das Whisper-Modell von OpenAI, um Transkriptionen der in den Videos vorhandenen Sprache zu erstellen. Die Hinzufügung von transkribierter Sprache erwies sich als besonders leistungsfähig und führte zu einer signifikanten Steigerung der Leistung. Dieses Ergebnis unterstreicht eine wichtige Erkenntnis: Semantische Informationen, die durch Text erfasst werden, bieten oft ein klareres Verständnis des emotionalen Kontextes als Audio allein. Dies deutet darauf hin, dass aktuelle Audiomodelle die tiefere Bedeutung und Struktur der gesprochenen Sprache immer noch nicht erfassen können, was unterstreicht, wie wichtig die Integration linguistischer Inhalte für eine genauere Interpretation emotionaler Kommunikation ist.

Diese Gemeinschaftsarbeit wird auf der CVPR 2025 in Nashville, Tennessee, vorgestellt.

 

Semantic Matters: Multimodal Features for Affective Analysis
Tobias Hallmen, Robin-Nico Kampa, Fabian Deuser, Norbert Oswald, Elisabeth André

[LINK]