
Professur Data Science bei der ACL 2025
1 August 2025
Florian Babl und Moritz Hennen hatten die Möglichkeit, in einer Postersession ihre Forschungsergebnisse zu präsentieren. In ihrer Arbeit sind sie die Ersten, die herausstellen, dass alle weit verbreiteten NER-Datensätze zu 50–90 % aus den gleichen Named Entities in den Training- und Testdaten bestehen, was eine generalisierte Evaluierung unmöglich macht. Sie analysieren daraufhin, wie unterschiedliche Grade an Kontaminierung die Evaluierung von NER-Modellen beeinflussen. In 825 Experimenten auf fünf Datensätzen und drei unterschiedlichen NER-Modellen finden sie unter anderem statistisch signifikante Korrelationen zwischen Kontaminierung und dadurch künstlich erhöhten F1-Werten. Um das Problem zu beheben, schlagen sie einen neuen bereinigten F1-Wert vor, der nur ungesehene Named Entities berücksichtigt. Des Weiteren sind sie die Ersten, die einen Ansatz zur Aufteilung von NER-Datensätzen vorstellen. Dabei werden Named Entities als Knoten in einem gewichteten Graphen repräsentiert, dessen Gewichte die Anzahl an gleichen Entitäten in zwei Dokumenten darstellt. Durch die Nutzung eines Min-Cut-Algorithmus wird der Graph in Training-, Evaluierungs- und Testdaten mit minimaler Kontaminierung aufgeteilt.
Bildquellen: Moritz Hennen (FI CODE)