Bestimmt kennen Sie automatische Übersetzungstools wie DeepL und Google Translate. Haben Sie sich auch schon einmal gefragt, ob man das Dolmetschen nicht auch durch eine ähnliche Technologie ersetzen könnte? Schliesslich handelt es sich ebenfalls um die Übertragung von einer Sprache in eine andere. Schauen wir uns den Prozess des automatisierten Dolmetschens mal genauer an.
KI-unterstützte Sprachverarbeitung
Alle erfolgreichen automatischen Übersetzungstools werden heutzutage durch künstliche Intelligenz gestützt. Sprache ist neben Computervision eines der wichtigsten Anwendungsgebiete für KI und es wird viel Zeit, Geld und Serverpower investiert, um per Machine Learning immer bessere Modelle zu entwickeln, die Text von einer Sprache in eine andere übertragen können.
Spracherkennung und Speech-to-text-Technologie
Spracherkennung ist ein KI-gestützter Prozess. Aus grossen Mengen an Sprachdaten werden Modelle generiert, die lernen, gesprochene Inhalte zu “verstehen”. Eine Form davon kann sein, den gesprochenen und erkannten Text in geschriebenen Text zu übertragen, also zu transkribieren. So eine Übertragung von gesprochener in geschriebene Sprache ist etwas, das Menschen meist leicht fällt, wenn sie die Sprache beherrschen. Maschinen wird diese Aufgabe durch undeutliche Aussprache, Dialekte, Akzente und Nebengeräusche stark erschwert.
Dieser Schritt, gesprochene Inhalte in geschriebenen Text zu übertragen, wird als Speech-to-Text bezeichnet.
Maschinelle Übersetzung
Als nächster Schritt kommt nun die Technologie zum Einsatz, die Sie von Online-Übersetzern schon kennen: maschinelle Übersetzung. Ein erneut von künstlicher Intelligenz gestütztes neuronales Netzwerk übersetzt den jetzt schriftlich vorliegenden Text in eine andere Sprache. Für einige Sprachkombinationen ist sogenannte Machine Translation bereits sehr fortgeschritten und macht nur wenige Fehler. Wenn sich allerdings im vorigen Schritt der Spracherkennung bereits Fehler eingeschlichen haben, setzen sich diese natürlich in der anschliessenden Übersetzung fort.
Text-to-Speech
Als nächstes folgt nun die sogenannte Sprachsynthese, die künstliche Erzeugung einer menschlichen Sprechstimme: Eine Maschine liest den übersetzten Text vor und imitiert damit den Dolmetscher, der sonst den übersetzten Text wiedergeben würde.
Software und Systeme zur Sprachsynthese gibt es schon lange, bis vor einigen Jahren klangen sie aber oft sehr roboterhaft. Mittlerweile sind viele Sprachsynthesen so gut geworden, dass sie sich kaum noch von menschlichen Stimmen unterscheiden lassen.
Avatare als Sprecher
Um der gesprochenen Sprache einen “Körper” zu geben, haben in den letzten Jahren einige Unternehmen Avatare entwickelt, also virtuell erzeugte, aber real aussehende Menschen, die jeden Text so vortragen können, dass es wirkt, als würde man ein Video ansehen, in dem der Text wirklich von dem Sprecher gerade vorgetragen wird.
Solche Avatare kommen aktuell vor allem in Lehrvideos oder Chatbots zum Einsatz. Die Idee, sie auch für das Dolmetschen von live gesprochenen Inhalten einzusetzen, liegt nahe, wird in der Praxis allerdings bisher nicht genutzt.
In Kürze
Der Weg zum automatischen Dolmetschen führt also an den folgenden Stationen entlang:
- Erkennung der gesprochenen Sprache und Transkription in geschriebenen Text
- maschinelle Übersetzung der schriftlichen Inhalte
- Synthese der übersetzten Inhalte in gesprochene Sprache
- optional: Abbildung der gesprochenen übersetzten Inhalte auf einen Avatar, um ein Erlebnis zu erzeugen, das noch näher am menschlichen Dolmetschen ist
Was fehlt noch?
Obwohl der Prozess des maschinellen Dolmetschens in seinen Grundzügen umsetzbar ist, ist er noch viel zu fehleranfällig, um das menschliche Dolmetschen in naher Zukunft zu ersetzen. Die Fehlerquote bei der Spracherkennung ist relativ hoch (ca. 5%), und maschinelle Übersetzung funktioniert bei speziellen Inhalten noch nicht immer zuverlässig.
Die vorgestellten Technologien könnten aktuell zum Beispiel bei der Verdolmetschung von Nachrichten oder Vorträgen eingesetzt werden, bei denen deutlich, langsam und ohne Störgeräusche oder Mehrdeutigkeiten gesprochen wird. Dies sind Situationen, bei denen heute oft das Simultandolmetschen zur Anwendung kommt.
Für Gesprächssituationen, in denen konsekutiv gedolmetscht wird, könnte man sich diese Technologie als Tool vorstellen, das helfen kann, wenn relativ einfach gehaltene Inhalte übersetzt werden müssen. Für emotionale und konsequenzenreiche Gespräche liegt die Fehlerquote aber zu hoch. Beim interkulturellen Dolmetschen ist es entscheidend, dass die Gesprächsteilnehmer wirklich alle Informationen verstehen und auch die Tragweite und mögliche Implikationen des Gesagten verstanden werden.
Hier ist die KI noch nicht weit genug, um Dolmetschenden den Job abzunehmen. Die oben genannten Technologien können Dolmetschende schon jetzt bei der Arbeit unterstützen, denn Spracherkennung und automatische Transkription können professionellen Dolmetschenden helfen, einen noch besseren Job zu machen: So genannte Computer-Assisted Interpretation Tools finden allmählich Verbreitung. In Situationen, wo es um Zugang, Teilhabe und folgenträchtige Entscheidungen geht, werden menschliche Dolmetscher mit einschlägigen Qualifikationen jedoch noch für längere Zeit unabdingbar bleiben.
Titelbild von Gertrūda Valasevičiūtė auf Unsplash