Professur Data Science bei der ACL 2025

1 August 2025

Die Annual Meeting of the Association for Computational Linguistics 2025 (ACL 2025) fand vom 26. Juli bis 1. August 2025 in Wien, Österreich statt. Die Professur für Data Science war durch Amon Soares de SouzaMoritz Hennen und Florian Babl vertreten.
 
Die Konferenz, die als die bedeutendste Veranstaltung im Forschungsfeld der Computerlinguistik gesehen wird, deckt ein breites Spektrum an Themen ab und legte dieses Jahr einen besonderen Fokus auf die Generalisierungsfähigkeit von NLP-Modellen. Dieses Themengebiet ist von besonderer Relevanz, da Modelle nicht nur bei bekannten Daten gut funktionieren sollen, sondern auch bei neuen, unbekannten Daten zuverlässig sein müssen.  Zu den Highlights der Konferenz gehörten neben dem Social Event mit Swing Dance, Schuhplattler und Walzereinlagen vor allem die Paneldiskussion über die Generalisierungfähigkeit von Large Language Modellen (LLMs) mit Mirella Lapata, Dan Roth, Yue Zhang und Eduard Hovy. Dabei äußerten sie sich teilweise äußerst kritisch zur aktuellen Forschung an LLMs, hoben aber auch die vielversprechenden Möglichkeiten und die ethische Verantwortung der Wissenschaftlerinnen und Wissenschaftler hervor.  Auch in diesem Jahr herrschte großes Interesse an der Konferenz, was sich auch in der Rekordzahl von über 8.000 eingereichten Arbeiten und über 6.000 Teilnehmern widerspiegelte. Aufgrund der hohen Anforderungen bei dieser Konferenz wurden aber nur 20.3 % der Einreichungen zur Publikation angenommen.

 

Florian Babl und Moritz Hennen hatten die Möglichkeit, in einer Postersession ihre Forschungsergebnisse zu präsentieren. In ihrer Arbeit sind sie die Ersten, die herausstellen, dass alle weit verbreiteten NER-Datensätze zu 50–90 % aus den gleichen Named Entities in den Training- und Testdaten bestehen, was eine generalisierte Evaluierung unmöglich macht.  Sie analysieren daraufhin, wie unterschiedliche Grade an Kontaminierung die Evaluierung von NER-Modellen beeinflussen. In 825 Experimenten auf fünf Datensätzen und drei unterschiedlichen NER-Modellen finden sie unter anderem statistisch signifikante Korrelationen zwischen Kontaminierung und dadurch künstlich erhöhten F1-Werten. Um das Problem zu beheben, schlagen sie einen neuen bereinigten F1-Wert vor, der nur ungesehene Named Entities berücksichtigt. Des Weiteren sind sie die Ersten, die einen Ansatz zur Aufteilung von NER-Datensätzen vorstellen. Dabei werden Named Entities als Knoten in einem gewichteten Graphen repräsentiert, dessen Gewichte die Anzahl an gleichen Entitäten in zwei Dokumenten darstellt. Durch die Nutzung eines Min-Cut-Algorithmus wird der Graph in Training-, Evaluierungs- und Testdaten mit minimaler Kontaminierung aufgeteilt.

 

Abbildung 1: Moritz Hennen (links) und Florian Babl (rechts) vor ihrem Poster. 

 

Bildquellen: Moritz Hennen (FI CODE)

 

< Zur Newsübersicht