
Erfolgreiche Promotion an der Professur für Data Science
25 Juni 2025
Am 10. Juni hat unser externer Doktorand Philipp J. Rösch (Wissenschaftlicher Leiter für Künstliche Intelligenz am Institut für Verteilte Intelligente Systeme) seine Promotion erfolgreich abgeschlossen. Das gesamte Forschungsinstitut CODE gratuliert ganz herzlich!
Vision-Language (VL)-Modelle erwiesen sich als entscheidende Brücke zwischen der visuellen Welt, die wir wahrnehmen, und den sprachlichen Konstrukten, die wir zur Kommunikation und Beschreibung verwenden. Durch die Verknüpfung von Bildern und Text ermöglichen diese Modelle verschiedene Anwendungen: von der Unterstützung sehbehinderter Menschen durch Tools zur Beantwortung von Bildfragen über den Einsatz fortschrittlicher Suchmaschinen, die Bilder auf der Grundlage komplexer Textabfragen abrufen, bis hin zur Navigation von Robotern in unbekannten Umgebungen unter Verwendung natürlicher Sprache. Derzeit liegt der Fokus der Forschung auf Benchmark-Ergebnisse kompletter Datensätze und es gibt keine feinkörnige Evaluierung von sog. Konzepten.
Um diese Forschungslücke zu schließen, widmet sich Philipp J. Rösch in seiner Arbeit der feinkörnige Evaluierung der Konzepte Objekt, Farbe, Größe und Position. Dazu wurden die Trainings- und Bewertungsparadigmen von VL-Modellen untersucht. Seine Analyse ergab, dass die klassischen Trainingsmethoden die Modelle oft nicht mit ausreichend anspruchsvollen Beispielen konfrontieren. Er hat festgestellt, dass zum Training überwiegend schwach-negative Beispiele verwendet werden, d. h. Beispiele, die für die Modelle leicht zu unterscheiden sind, sie aber nicht dazu anregen, ein tieferes Verständnis für feinkörnige Konzepte zu entwickeln.
Infolgedessen können diese Modelle eine hohe Leistung bei Benchmark-Kennzahlen erzielen, während sie in kritischen Unterkategorien Schwächen aufweisen. Durch die sorgfältige Konstruktion von Negativbeispielen, die sich in minimaler -- aber semantisch sinnvoller Weise unterscheiden -- hat Herr Rösch VL-Modelle trainiert, damit diese ein verfeinertes konzeptionelles Bewusstsein zu entwickeln.
Beispielsweise zwingt die Unterscheidung zwischen „rotem Auto vor blauem Haus“ und „rotem Auto vor grünem Haus“ das Modell dazu, stärker auf Farbunterschiede zu achten, anstatt sich auf grobkörnige Muster zu verlassen. Seine Ergebnisse zeigen, dass dieser gezielte Ansatz die Leistung erheblich steigert. Neben der Verbesserung des Trainings hat er ebenfalls Mängel bei der Bewertung von VL-Modellen behoben. Bei Standard-Benchmarks wird die Leistung oft über einen gesamten Datensatz aggregiert, wobei spezifische Konzepte wie Farbe, räumliches Denken oder Objektausrichtung nicht berücksichtigt werden. Um dieses Problem zu beheben, hat er einen neuen Datensatz namens InpaintCOCO erstellt, der feinkörnige Bewertungen durch die Veränderung kleiner, aber aussagekräftiger Details in Bildern erleichtert.
Abbildung: Philipp J. Rösch im Kreise der Gutachterkommission.
Bildquellen: AdobeStock / Kakabe (Generiert mit KI); Philipp J. Rösch / FI CODE