
Paper bei der ACL 2025 angenommen
21 Mai 2025
Named Entity Recognition (NER), d. h. das Erkennen von benannten Entitäten wie Personen, Ortsnamen etc., ist ein häufig eingesetztes Verfahren des Maschinellen Lernens. Zum Einsatz kommt es in verschiedenen Anwendungen der natürlichen Sprachverarbeitung (NLP).
Die Arbeit von Florian Babl, Moritz Hennen, Jakob Murauer und Michaela Geierhos zielt darauf ab, auf die weitverbreitete Kontamination von Testdatensätzen in diesem Bereich aufmerksam zu machen. Kontamination bedeutet in diesem Zusammenhang, dass bestimmte Personennamen sowohl in den Trainings- als auch in den Testdaten vorhanden sind. Weiterhin zeigen sie die Auswirkungen dieser Kontamination auf die Generalisierungsfähigkeit von drei verschiedenen State-of-the-Art-Modellen auf, die sich um 2-10% verschlechtert. Abschließend präsentieren sie einen neuen Ansatz zur Erstellung von NER-Datensätzen, der als erster seiner Art die genannten Probleme lösen kann.
Mehr über diesen Beitrag: https://2025.aclweb.org/
Bildquelle: AdobeStock/photoopus