FINEST

Fine-Tuning for Specialized Translation

(2025 – 2028)

Studie: „KI-basierte Sprachverarbeitungsumgebung“

Ziel des Projekts ist die wissenschaftliche Untersuchung und prototypische Erprobung von Verfahren zur domänenspezifischen Anpassung und Ergänzung von Large Language Models (LLMs), um die maschinelle Übersetzung im Kontext der Bundeswehr gezielt zu verbessern. Im Mittelpunkt steht die Frage, ob und in welchem Umfang sich mit LLM-basierten Ansätzen qualitative und quantitative Verbesserungen gegenüber bestehenden neuronalen maschinellen Übersetzungssystemen (NMÜ) erreichen lassen. Auf dieser Grundlage sollen fundierte Entscheidungsgrundlagen für einen möglichen späteren Einsatz in der IT-Umgebung der Bundeswehr geschaffen werden.

Beschreibung

Ausgangspunkt ist, dass aktuelle LLMs großes Potenzial für sprachverarbeitende Aufgaben zeigen, jedoch überwiegend mit allgemeinen, zivilen Daten trainiert wurden. Militärische Fachdomänen unterscheiden sich davon deutlich: Sie verwenden eigene Terminologie, spezifische Textsorten und Sprachregister und unterliegen besonderen Anforderungen an Datenschutz, Nachvollziehbarkeit und IT-Sicherheit. Diese Besonderheiten sind in bestehenden Modellen unzureichend berücksichtigt. Übersetzungsprozesse im militärischen Umfeld stellen daher erhöhte Anforderungen an Qualität und Sicherheit. Der Einsatz von LLMs kann hier Vorteile bringen, erfordert jedoch eine systematische Evaluierung, gezielte Domänenanpassung und eine sorgfältige Betrachtung möglicher Risiken. Das Projekt untersucht deshalb, unter welchen Bedingungen LLM-basierte Verfahren einen messbaren Mehrwert gegenüber klassischer NMÜ bieten und wo ihre Grenzen liegen.

Methodisch folgt das Vorhaben einem mehrstufigen, empirischen Ansatz. Zunächst wird eine gesicherte Studien- und Evaluierungsumgebung aufgebaut, relevante Fachdomänen und Sprachpaare werden ausgewählt und Baseline-Experimente mit vortrainierten Modellen durchgeführt. Darauf aufbauend erfolgt die domänenspezifische Anpassung und Ergänzung der Modelle. Hierbei werden verschiedene Verfahren systematisch verglichen, insbesondere promptbasierte Erweiterungen mit domänenspezifischen Ressourcen, Retrieval-Augmented Generation (RAG) in unterschiedlichen Ausprägungen sowie Fine-Tuning mit fachdomänenspezifischen Übersetzungsdaten.

Parallel dazu wird eine Evaluierungsumgebung entwickelt, die automatisierte Metriken und menschliche Bewertungen einsetzt, um Verbesserungen gegenüber den Baselines nachvollziehbar und reproduzierbar zu messen. Ergänzend werden weitere Aspekte untersucht, darunter die Auswirkungen von Anonymisierung auf die Übersetzungsqualität, Ansätze zur zyklischen Generierung von Trainingsdaten, der Vergleich unterschiedlicher Modellgrößen und -architekturen sowie die Integration automatisierter Postediting-Verfahren.

Die im Projekt gewonnenen Ergebnisse werden schließlich zu konsistenten Handlungsempfehlungen für eine souveräne und sicherheitskonforme Nutzung KI-gestützter Sprachverarbeitung innerhalb der Bundeswehr zusammengefasst. Dadurch entstehen evidenzbasierte Aussagen zum tatsächlichen Nutzen von LLMs in der militärischen Fachübersetzung, methodisch abgesicherte Evaluations- und Benchmarkingansätze sowie wissenschaftliche Grundlagen für weiterführende Forschung, Implementierung und strategische Entscheidungsprozesse im Bereich KI-gestützter Sprachverarbeitung.

Das Projekt FINEST ist ein gemeinsames Vorhaben vom Bundessprachenamt, dem Zentrum Digitalisierung der Bundeswehr sowie der Universität der Bundeswehr München.

Projektteam

Univ.-Prof.'in Dr. phil. Michaela Geierhos

Univ.-Prof.

Lena Griesbeck M.Sc.

Wissenschaftliche Mitarbeiterin

< Zurück zur Übersicht