Pixelfolk > Google Translate mit neuem Übersetzungs-Mechanismus

Google Translate mit neuem Übersetzungs-Mechanismus

Eigentlich wissen wir alle, wie schlecht maschinelle Übersetzungen sind. Komplexe Satz-Strukturen und Idiome werden grauenvoll übersetzt. Trotzdem lieben viele Menschen die Übersetzungs-Tools im Internet. Zumindest reicht es, um sich einen Überblick verschaffen, worum es in einem fremdsprachigen Text geht. Man muss es ja nicht gleich so machen wie findige Schüler, die ihre Englisch-Hausaufgaben von Babelfish erledigen lassen ...

Eine wirklich gute Übersetzungs-Maschine hat aber das Potential zu einer echten Cash-Cow. Deswegen gibt es noch immer Unternehmen, die Fortschritte im Bereich der manuellen Übersetzungen machen wollen. Und dazu gehört definitiv Google.

Bisher basierte Googles Übersetzungs-Mechanismus auf SYSTRAN, welches auch bei Yahoo, Altavistas Babelfish und seit Kurzem beim neuen Live Translator im Einsatz ist. Neuerdings versucht es Google Translate mit eigener Software und neuem Ansatz: Statistisch-maschinelle Übersetzung ist das Zauberwort.

Das Prinzip der statistisch-maschinellen Übersetzung ist leicht zu verstehen: Dazu werden Inhalte aus dem riesigen (Google-) Index verglichen, die in mehreren Sprachen vorliegen (in der Fachsprache: Vergleich von Parallelkorpora). Dafür eignen sich etwa mehrsprachige Gesetzestexte oder teilweise Wikipedia-Artikel. Daraus lassen sich mit statistischen Prinzipien Übersetzungen für ganze Phrasen ermitteln. Zusätzlich ist es ein Leichtes zu schauen, ob es eine übersetzte Phrase im Google Index gibt - wenn nicht, ist die Übersetzung vermutlich ein Schmarrn.

Übersetzungs-Test

So, Zeit für einen Test. Nehmen wir die folgende Aussage vom Google Research Blog her:

Most state-of-the-art commercial machine translation systems in use today have been developed using a rules-based approach and require a lot of work by linguists to define vocabularies and grammars.

Several research systems, including ours, take a different approach: we feed the computer with billions of words of text, both monolingual text in the target language, and aligned text consisting of examples of human translations between the languages. We then apply statistical learning techniques to build a translation model. We have achieved very good results in research evaluations.

Die Übersetzung hört sich dann so an:

Die meisten auf dem neuesten Stand der Technik kommerziellen maschinelle Übersetzung im Einsatz heute entwickelt worden, mit einem auf Regeln basierenden Ansatz und erfordert eine Menge Arbeit von Linguisten zu definieren, Wortschatz und Grammatik.

Mehrere Forschung, einschließlich der unsrigen, die einen anderen Ansatz: Wir speisen die Computer mit Milliarden von Wörtern des Textes, sowohl einsprachige Text in der Zielsprache, und an Text, bestehend aus Beispiele für die menschliche Übersetzungen zwischen den Sprachen. Wir haben dann für die statistische Techniken lernen, um eine Übersetzung. Wir haben sehr gute Ergebnisse in der Forschung Auswertungen.

Insgesamt ist das Resultat auch nicht wirklich berauschend. Aber die beiden fettgedruckten Textabschnitte sind mir gleich positiv ins Auge gesprungen. Derartige grammatikalische Konstruktionen bzw. wirklich sinngetreu übersetze Phrasen gibts bei der Konkurrenz sicher nicht. Man muss auch sagen, dass die Qualität der Übersetzung ganz stark vom Themengebiet abhängt - bei weltpolitischen Themen habe ich vermehrt gute Resultate erkennen können. Es wartet zwar noch viel Arbeit, aber ganz offensichtlich trägt der neue Ansatz zu einer konsequenten Verbesserung bei ...

Veröffentlicht am 26.10.2007.

RSS RSS-Feed abonnieren
Und stets aktuell informiert ...

Ähnliche Artikel


Lesezeichen setzen


Werbung


© 2007-2008 Thomas Graf — alle Rechte vorbehalten.
PixelfolkRSS RSS-FeedImpressumDatenschutzhinweis