Amazon kennzeichnet Trainingsdaten niedriger Qualität für große Sprachmodelle (LLMs)

Last Updated April 15, 2024

Es gibt Tools, mit denen große Mengen an Trainingsdaten für LLMs gesammelt werden können, aber der Mensch hilft beim Bereinigen, Analysieren und Kennzeichnen der Daten, damit Sie genau das bekommen, was Sie brauchen.

Leitende Datenwissenschaftler bei Amazon berichteten kürzlich, dass „ein schockierender Teil des Internets maschinell in verschiedene Sprachen übersetzt wird“. Außerdem ist die Qualität dieser Mehrsprachenübersetzungen oft sehr gering.

Es überrascht vielleicht nicht, dass Mehrfachübersetzungen – also solche, die eine große Anzahl von Sprachen umfassen – im Vergleich zu Übersetzungen von einer in eine andere Sprache eine deutlich geringere Qualität aufwiesen.

„Je mehr Sprachen die Übersetzung eines Satzes umfasste, desto geringer ist die Qualität der Übersetzungen, was auf einen höheren Anteil an maschineller Übersetzung schließen lässt“ – so die Forscher.

Und dies ist nicht nur ein Problem, das bei Übersetzungen in Sprachen mit geringeren Ressourcen auftritt. Diese Übersetzungen machen einen „großen Teil des gesamten Webinhalts“ aus.

Tatsächlich ist der Trend in allen acht Sprachpaarrichtungen gleich:

  • Englisch→Deutsch
  • Deutsch→Englisch
  • Französisch→Deutsch
  • Deutsch→Französisch
  • Englisch→Japanisch
  • Japanisch→Englisch
  • Englisch→Chinesisch
  • Chinesisch→Englisch

Was bedeuten diese Ergebnisse? Nun, sie werfen „ernsthafte Bedenken“ hinsichtlich der Qualität der Trainingsdaten für große Sprachmodelle (LLMs) auf, die aus Web-Scrapings stammen.

Wenn die Trainingsdaten von minderwertigen MT stammen, ist es wahrscheinlich, dass die LLMs und damit die darauf aufbauenden KI-Innovationen weniger effektiv und sogar unzuverlässig sind.

Die Datenwissenschaftler betonen, dass die Datenqualität beim LLM-Training „entscheidend“ ist. Sie weisen zudem darauf hin, dass moderne KI durch riesige Mengen an Trainingsdaten ermöglicht wird – Hunderte von Milliarden bis hin zu einigen Billionen Token. Ein Training in dieser Größenordnung ist nur mit Daten aus Web-Scrapings möglich, aber die weite Verbreitung von maschinell übersetzten Inhalten – insbesondere in Sprachen mit geringeren Ressourcen – könnte zu weniger flüssigen Modellen mit mehr Halluzinationen führen.

Gert Van Assche, unser Chief Technology Officer, sagt über die Studie:

„Danke, #Amazon: Endlich ein wissenschaftlicher Beweis für etwas, das uns auch bei #SummaLinguae aufgefallen ist: Webseiten, die in vielen Sprachen verfügbar sind (mehrsprachige parallele Daten), sind selten das Ergebnis menschlicher #Übersetzung oder menschlicher Überprüfung. Die Wissenschaftler beobachteten dies bei Sprachen mit geringen Ressourcen, aber es würde mich nicht überraschen, wenn dies auch für alle anderen Sprachen gelten würde. Die beste Anregung findet sich jedoch im letzten Absatz des Artikels. Schauen Sie einfach rein.“

Trainingsdaten für LLMs: Human-in-the-Loop-Ansatz

Es gibt einen Grund, warum Positionen wie Dateningenieure und Lösungsarchitekten bei Anbietern von Sprachlösungen heute alltäglich sind.

Sprachdienstanbieter haben aus erster Hand Erfahrung mit den Herausforderungen der Entwicklung von KI-Technologie und stellen interne technische Experten ein, um die notwendigen Datenlösungen zu unterstützen.

Es gibt Tools, mit denen große Mengen an Daten gesammelt werden können, aber der Mensch hilft beim Bereinigen, Analysieren und Kennzeichnen der Daten, damit Sie genau das bekommen, was Sie brauchen.

Natürlich wollen Sie die Kosten niedrig halten und Ihre Innovation vor der Konkurrenz auf den Markt bringen. Und Sie wollen es gut, aber auch schnell machen.

Daher können Sie also entweder Ihre Datenerfassung automatisieren und auf die wichtigen menschlichen Berührungspunkte, die für Qualität und Genauigkeit sorgen, verzichten. Sie können auch die Erfassung und Kennzeichnung billig auslagern und die Daten ohne klare Vorgaben und faire Vergütung versenden.

Was Sie jedoch brauchen, ist eine spezialisierte, von Menschen unterstützte Erfassung und Kommentierung der Daten – und keine allumfassende, schnelle Lösung. So sparen Sie langfristig Geld und bekommen genau das, was Sie brauchen.

Geben Sie sich nicht mit Data Scrapings zufrieden

Als Anbieter von Sprachlösungen mit Datenkompetenz ist es unsere Aufgabe, alle Möglichkeiten aufzuzeigen, wie wir Ihre Datensätze anpassen können, und Sie gleichzeitig auf die effektivste und preislich günstigste Erfassungsoption für Ihre Lösung hinzuweisen.

Wir unterstützen derzeit mehr als 80 Sprachen und über 200 verschiedene Sprachpaare. Wir analysieren große Trainingsdatensätze und erkennen Muster, die durch Beschriftung, Etikettierung und Markierung zum Zwecke der Datenanreicherung Probleme verursachen.

Lassen Sie unser Team von Linguisten und Fachexperten Ihre KI mit sauberen Daten für maschinelles Lernen und Auswertungen des produzierten Outputs unterstützen.

Related Posts

Summa Linguae uses cookies to allow us to better understand how the site is used. By continuing to use this site, you consent to this policy.
Learn more