Ludwig-Maximilians-Universität München
print

Links und Funktionen
Sprachumschaltung

Navigationspfad


Inhaltsbereich

Computerliguistik

Digitale Sinnsuche

München, 11.09.2015

Wenn Maschinen Texte übersetzen, ist das Resultat oft eher lustig als richtig. Wie können Computer lernen, es einzuschätzen, welche der möglichen Wortbedeutungen jeweils die wahrscheinlich richtige in einem Satz ist?

Automatisches Übersetzen - ein beliebiger Versuch. Computerlinguist Alexander Fraser untersucht, wie es besser geht.

Man kann sich einmal einen Spaß machen und folgenden einfachen Satz bei Google Translate eingeben, um ihn übersetzen zu lassen: „Die Bank nahe der Bank hat geschlossen.“ Das Programm im Internet bietet an: „The bench near the bank has closed.” Was bedeutet, dass die Sitzbank geschlossen hat. Wer es dann mit einer Alternative versucht, staunt ebenfalls: „Die Bank nahe dem Flussufer hat geschlossen“ wird zu: „The bench near the river bank has closed.“

Alexander Fraser lächelt angesichts solcher Beispiele, weil sie genau die Herausforderungen seiner Fachdisziplin erläutern. „Bank hat sowohl im Deutschen wie im Englischen verschiedene Bedeutungen, es ist für Programme eine Herausforderung, den richtigen Sinn zu erkennen“, erklärt der amerikanische Computerlinguist, ein Spezialist für automatische Übersetzungen. Eines der populärsten Programme dieser Art bietet derzeit Google an. Es arbeitet mit einem Verfahren, das auch Fraser verwendet, dem sogenannten „statistischen maschinellen Übersetzen“ (SMT), einem Verfahren, das mithilfe statistikbasierter Regeln selbst übersetzen lernen kann. Es ist erstaunlich, was solche Programme schon beherrschen, doch vielfach sind die Übersetzungen eher kurios. Wenn man Wort für Wort einen Text überträgt, aber den Sinn nicht versteht, ist das Ergebnis oft eher lustig als richtig.

Aus mehreren möglichen Bedeutungen einzelner Worte oder Satzkonstruktionen die richtige herauszufiltern, ist eine der großen Herausforderungen beim maschinellen Übersetzen. „Wir arbeiten daran, die Übersetzungsqualität schrittweise zu steigern“, sagt Fraser, der seit zwei Jahren eine Arbeitsgruppe am Centrum für Informations- und Sprachverarbeitung der LMU leitet und nun vom Europäischen Forschungsrat, kurz ERC, mit einem hochdotierten Starting Grant ausgezeichnet wurde. Anders als Google arbeitet Fraser mit einer reicheren linguistischen Struktur. 

Probleme mit Smog und Grexit 

Das bedeutet, dass er eine sprachspezifische Analyse vornimmt, sich also um Besonderheiten und Eigenwilligkeiten der jeweiligen Sprache kümmert. Google verwendet hier ein einziges System für hundert verschiedene Sprachen. Fraser passt sein Programm an das jeweilige Sprachpaar an. Er glaubt, dass sich dieser linguistische Zusatzaufwand lohnt, besonders wenn man in morphologisch reiche, also komplizierte Sprachen wie das Deutsche übersetzen möchte. „Deutsch ist eine der schwierigsten Zielsprachen“, sagt der Informatiker, der selbst neben seiner Muttersprache fließend Deutsch, Französisch, Spanisch und Arabisch spricht.

So müsse man etwa die möglichen Satzstrukturen begreifen, also nicht nur den klassischen Fall Subjekt-Prädikat- Objekt, sondern auch – gerade im Deutschen gern verwendete – Alternativen wie Objekt-Prädikat-Subjekt. Für einen geschulten Übersetzer sind solche Herausforderungen einfach zu bewältigen. Nicht so für ein Programm: Verneinungen, bestimmte oder unbestimmte Pronomen, zusammengesetzte Wörter oder sogenannte Portmanteau-Wörter wie Smog oder Grexit, die neu aus zwei erst einmal nicht identifizierbaren Wörtern gebildet werden, machen den maschinellen Übersetzungsprogrammen Probleme. Ebenso gehen beim Übersetzen manchmal Verben verloren. 

Deshalb muss man die Systeme intensiv trainieren, was enorm viel Rechenleistung beansprucht. Um die Qualität zu verbessern, entwickeln die Computerlinguisten neue Tools, die an schon bekannten Übersetzungen geschult und auf bestimmte Fragestellungen spezialisiert sind. Die Programme müssen am Ende nicht nur einen großen Wortschatz haben, sondern auch die vom Kontext in einem Satz abhängige Bedeutung erkennen.

Weiter mit Seite 2: Der richtige Pfad durch die Wortwüste

 

erc_535_banner_web