Schneller Terminologie-Aufbau mit dem TermFinder von Lingo24

Das Technologie-Team von Lingo24 kommt eigentlich nie zur Ruhe. Ständig tüftelt es neue Möglichkeiten aus, wie unsere Kunden ihre Qualitätsanforderungen noch zuverlässiger erfüllen können. Unser Ansporn ist die feste Überzeugung, dass jeder einen unkomplizierten Zugriff auf beste Übersetzungen haben sollte – und auf frei zugängliche Tools, die diese Qualität ermöglichen.

Wir erforschen beispielsweise regelmäßig verschiedene Bereiche des Übersetzungs- und Lokalisierungsprozesses, um zu sehen, wie wir nicht nur das Kunden-, sondern auch das Teamerlebnis steigern können. Lingo24 ist zwar auf den verschiedensten Märkten tätig, dennoch konnten wir einen Kernbereich identifizieren, der in Bezug auf hochwertige Übersetzungen für alle Branchen relevant ist: die kundenspezifische Terminologie.

Deswegen haben wir die Herausforderung angenommen und suchen nun unaufhörlich nach den besten Lösungen, wie wir die Terminologie optimal in die Übersetzungsprozesse unserer Kunden einbinden können. Neue, aufregende Features für unsere Plattform sollen dies ermöglichen.

Sehen wir uns das einmal genauer an…

Die Terminologie und ihr Einfluss

Die Terminologie ist für erfahrene Auftraggeber von Übersetzungsprojekten genauso wichtig wie ein Translation Memory. Diesen Eindruck haben wir zumindest auf der TAUS-Jahreskonferenz gewonnen.

Ob solides Glossar, umfassende Terminologie oder prallvolle TermBank (selbst in unserer Branche sind dafür verschiedene Begriffe geläufig) – für Autoren/Texter, Übersetzer und Lektoren sind sie von unschätzbarem Wert für einen effizienten Übersetzungsvorgang.

Wenn die Terminologie während des Texterstellungsprozesses vorgeschaltet ist, unterstützt sie die Erstellung noch besserer Texte, weil die Wortauswahl durch die Verwendung bereits geprüfter und bestätigter Begriffe konkreter und somit zeitsparend ist (und hoffentlich zusätzlichen Kontext bietet).

Ein bestehendes Glossar fördert während  des Übersetzungs- und Lokalisierungsprozesses mehr klassische Translation Memory Matches, also Übereinstimmungen, zutage und verkürzt somit die Zeiten, die sonst für Recherche- und Überprüfungsaufgaben aufgewendet werden müssten. Dies senkt zudem die Übersetzungs- und Lokalisierungskosten und verspricht durch die höhere Einheitlichkeit bessere Übersetzungsergebnisse.

Ein weiterer unverzichtbarer Vorteil ist, dass mithilfe der Terminologie Tonfall, Ausdruck und Stil sowie der wesentliche Website-Kontext der ursprünglichen Verfasser beibehalten werden und so auch neue Teammitglieder diese übernehmen und zugleich schneller arbeiten können.

Die Vorteile sprechen für sich! Und doch treffen wir immer wieder auf Kunden, die noch kein terminologiebasiertes Material besitzen. Andere wiederum haben ein solches zwar, entwickeln ihre Terminologie jedoch nicht weiter, weil sie befürchten, dass dies viel Zeit in Anspruch nimmt, bevor sie den Inhalt als Quelle für die Content-Erstellung oder für Übersetzungen nutzen können.

Woran liegt das?

Diese Frage beschäftigt uns andauernd. Warum nutzen bei all den Vorteilen so wenig Kunden hochwertige Glossare? Aus unserer Sicht gibt es dafür zwei Hauptgründe: die hohe Hürde, einwandfreie Glossareinträge zu gewährleisten und der Einsatz einer soliden Terminologie-Lösung, um sicherzustellen, dass diese auch von mehreren Nutzern verwendet werden kann.

Natürlich ist eine effektive Nutzung einer TermBank nur möglich, wenn diese umfassend geplant wurde und praktische Überlegungen berücksichtigt, wie:

  • Wie werden TermBanks erstellt?
  • Wie werden sie segmentiert?
  • Wer ist am Überprüfungs-/Bestätigungsprozess beteiligt?
  • Wie funktioniert dies arbeitsgruppen- und bereichsübergreifend?
  • Wie kann ich sie auf dem neuesten Stand halten?

Sobald einwandfreie Satzpaare im Glossar gespeichert sind, muss eine zentrale (oft recht kostspielige) Lösung eingesetzt werden, um die Einträge effektiv mit anderen Nutzern teilen zu können. Das zählt in den meisten Unternehmen nicht zum Standard.

Wie können sich Unternehmen also von den häufig genutzten Excel-Dateien verabschieden, in denen Satzpaare für gewöhnlich abgespeichert werden und die eigentlich nie wirklich aktuell sind und sich damit auch nicht zur gemeinschaftlichen Nutzung eignen?

Kunden sollten ihre Terminologie selbst verwalten können

Nachdem wir das Problem verstanden hatten, wollten wir uns der Terminologie-Herausforderung stellen. Wir entwickelten zwei getrennte, aber durch einen Link verbundene technologische Konzepte. Das erste war die Entwicklung unseres Tools TermFinder zur Beschleunigung des Terminologie-Aufbaus durch bereits bestehende Satzpaare. Das zweite war das Terminologie-Management und die Validierungsoberfläche in unserer Übersetzungsplattform Coach, die die Überprüfung und die kontinuierliche Verwaltung und Anwendung der Terminologie-Assets unterstützt.

Bei unserem Tool TermFinder verwenden wir einen aktualisierten statistischen Ansatz, indem wir Techniken kombinieren, die Daten anders erfassen als traditionelle, frequenzgestützte Methoden, die häufig zum Einsatz kommen.

Wir beginnen mit dem Analysieren eines bestehenden Translation Memorys und anderen Assets, um potenzielle Begriffe durch das Herausfiltern einsprachiger Satzpaare sowohl im Quelltext als auch im Zieltext zu identifizieren. Anschließend filtern wir alle „Stoppwörter“ (wie „ein/e/es“, „der/die/das“ usw.) heraus und vergleichen die Häufigkeit jedes möglichen Begriffs zwischen generischem Korpus und Translation Memory, wodurch wir eine Log-Likelihood erhalten. Das bedeutet, dass wir auf Begriffe achten, die häufiger im Translation Memory auftreten als erwartet, wenn man von ihrer Häufigkeit in einem generischen Text ausgeht.

Die sich daraus ergebenen Begriffe werden dann abgestimmt und in eine Rangordnung gebracht, indem ein phrasenbasiertes System der sogenannten Statistischen Maschinellen Übersetzung trainiert wird, das das Translation Memory verwendet. Während dieses Prozesses nutzen wir kundenspezifische Merkmale zur Identifizierung brauchbarer Begriffe (z. B. mittels Durchführung einer DBPedia-Prüfung), die wahrscheinlich eine größere Relevanz haben.

Dabei sollten Sie unbedingt wissen, dass wir eine Maschinelle Übersetzung nicht zur Erstellung von Begriffen einsetzen.  Wir entwickeln eine maschinelle Übersetzungssoftware, da kurzlebige Daten kaum dazu beitragen, potenzielle, auf Gemeinsamkeit und Einzigartigkeit basierende Begriffe in eine Rangfolge zu bringen oder abzustimmen.

Mehr über diesen Prozess erfahren Sie in unserem Forschungsbericht, der von Andy Way vom CNGL der Dublin City University über dieses Thema verfasst wurde.

Das Ergebnis dieses Prozesses ist eine hochwertige, fokussierte, zweisprachige TermBank, die einfach von einem oder mehreren internen Prüfern bestätigt werden kann – und zwar durch Nutzung unseres aktualisierten Terminologie-Managements und der Validierungsoberfläche in Coach, wodurch der typische Entwicklungszyklus von Monaten auf Wochen verkürzt werden kann.

Die Ergebnisse sprechen für sich – eine hohe Trefferquote bei validierten Quellbegriffen.

Das Gesamtergebnis

Wir freuen uns sehr über die Früchte unserer harten Arbeit in Bezug auf beide Tools und haben festgestellt, dass unsere Kunden eine erheblich bessere Qualität erwarten können, wenn automatisch herausgefilterte hochwertige Begriffe an die zuständige Stelle in der Organisation weitergeleitet werden, die auf die Validierung und Bestätigung abgestimmte Aufgaben durchführen (und dadurch gewährleisten, dass diese angemessen in den Übersetzungen verwendet werden).

Und für Auftraggeber, die eine maschinelle Übersetzung innerhalb ihres Übersetzungsworkflows wünschen, können wir die Software jeweils unter der Verwendung der vereinbarten Terminologie trainieren, um das Ergebnis zu verbessern. Aber das ist ein ganz eigenes Thema, das wir bei nächster Gelegenheit unter die Lupe nehmen werden.

Wenn Sie mehr über diese Technologie erfahren oder unsere Translation-Memory-Assets einmal testen möchten, schauen Sie sich unsere Folien von der Preisverleihung des TAUS Innovation Award im Speaker Deck an oder nehmen Sie über unsere Website Kontakt mit dem Team auf, das stundenlang über Terminologie und Technologie sprechen könnte.