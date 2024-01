Die Anzahl der im Internet verfügbaren Inhalte, die nicht ausdrücklich in der Sprache des Zielpublikums verfasst, sondern in einer anderen Ausgangssprache formuliert und anschließend von KI-Übersetzern wie etwa DeepL oder ChatGPT in andere Sprachen überführt wurden, wird von Wissenschaftlern aus Amazons Alexa-Abteilung bereits als „erschreckend groß“ beschrieben.

Fast 60% aller Inhalte übersetzt

Unter der Überschrift „A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism“ haben diese jetzt eine Studie (PDF-Download) veröffentlicht, die sich mit dem Vorkommen so genannter „Multi-Way Parallelisms“ beschäftigt. Grob vereinfacht handelt es sich dabei um mehrere automatische Eins-zu-eins-Übersetzungen originaler Inhalte in unterschiedliche Zielsprachen. Diese seien nach Prüfung von über sechs Milliarden Sätzen bereits in 57,1% aller Web-Inhalte zu beobachten.

Nach Angaben der Amazon-Forscher werden im Internet verfügbare Inhalte häufig in viele Sprachen übersetzt, ein Großteil davon mittels maschineller Übersetzung. Dies wirkt sich vor allem negativ auf all jene Sprachen aus, die online nur in geringem Umfang vertreten sind.

Ein großer Anteil des gesamten Web-Inhaltes, der überhaupt in diesen Sprachen verfügbar ist, bestehe bereits aus automatisch übersetzten Inhalten, die häufig eine minderwertige Qualität aufweisen würden.

Dabei werden nicht alle online Inhalte zu gleichen Teilen in andere Sprachen überführt, einzelne Bereiche wie News, Business-Nachrichten und meinungsbasierte Inhalte werden mit deutlich höherer Frequenz übersetzt als etwa Rezepte, Inhalte, die sich um Hobbys und Gartenpflege drehen, sowie Content zu Fahrzeugen, Verkehr und Reise. Dies sorgt dafür, dass in Sprachen mit geringen Ressourcen bestimmte Inhalte massiv überrepräsentiert sind.

Einige Inhalte werden deutlich häufiger übersetzt als andere

Dies sei unter anderem für das Training von zukünftigen KI-Modellen problematisch, wenn diese sich jetzt auf Inhalte verlassen würden, die ihrerseits nicht von Muttersprachlern stammen, sondern selbst ebenfalls das Resultat von KI-Übersetzungen sind.