Amazon signale la faible qualité des données de formation des LLM

Last Updated avril 15, 2024

Les outils existent pour collecter de grandes quantités de données de formation pour les LLM, mais ce sont les points de contact humains qui aident à nettoyer, analyser et étiqueter les données pour que vous obteniez exactement ce dont vous avez besoin.

Des scientifiques de données chevronnés d’Amazon ont récemment rapporté que « une quantité choquante du web est traduite automatiquement » en plusieurs langues. Qui plus est, la qualité de ces traductions multi-voies est souvent médiocre.

Il n’est peut-être pas surprenant que les traductions parallèles multi-voies – lorsqu’il s’agit d’un grand nombre de langues – présentent une qualité nettement inférieure à celle des traductions parallèles bilingues.

« Plus de fois une phrase a été traduite en plusieurs langues, plus la qualité des traductions est mauvaise, ce qui suggère une plus grande prévalence de la traduction automatique », ont déclaré les chercheurs.

Il ne s’agit pas seulement d’un problème qui se pose pour les traductions dans les langues à faibles ressources. Ces traductions représentent une « grande partie du contenu total du web ».

En fait, la tendance est la même pour huit directions de traduction :

  • Anglais→Allemand
  • Allemand→Anglais
  • Français→Allemand
  • Allemand→Français
  • Anglais→Japonais
  • Japonais→Anglais
  • Anglais→Chinois
  • Chinois→Anglais

Que signifient ces résultats ? Ils soulèvent de « sérieuses inquiétudes » quant à la qualité des données d’entraînement pour les grands modèles de langage (LLM) qui proviennent d’extraits de sites web.

Si les données d’entraînement sont issus de la traduction automatique de mauvaise qualité, il est probable que les LLM et, par conséquent, les innovations en matière de l’IA qui en découlent seront moins efficaces, voire non fiables.

Les scientifiques des données soulignent que la qualité des données est « essentielle » dans la formation des LLM, notant que l’IA moderne est alimentée par d’énormes quantités de données de formation – des centaines de milliards de tokens à quelques trillions de tokens. L’entraînement à cette échelle n’est possible qu’avec des données extraites du web, mais la prévalence de contenus traduits par des machines – en particulier dans les langues à faibles ressources – pourrait conduire à des modèles moins fluides avec plus d’erreurs.

Voici ce que Gert Van Assche, notre Directeur de la technologie, dit de l’étude :

« Merci, #Amazon : Enfin une preuve scientifique de quelque chose que nous avons également remarqué à #SummaLinguae : les pages web disponibles dans de nombreuses langues (données parallèles multi-voies) sont rarement le résultat d’une #traduction humaine ou d’une révision humaine. Les scientifiques ont observé ce phénomène dans les langues à faibles ressources, mais je ne serais pas surpris qu’il en soit de même pour toutes les langues. La meilleure suggestion se trouve toutefois dans le dernier paragraphe du document. Jetez un coup d’œil. »

Données de formation pour les LLM : approche « humain dans la boucle »

Ce n’est pas pour rien que des fonctions telles que celles d’ingénieur de données et d’architecte de solutions sont aujourd’hui monnaie courante chez les fournisseurs de solutions linguistiques.

Les prestataires de services linguistiques ont une expérience de première main des défis posés par le développement de la technologie de l’IA et ajoutent des experts techniques internes pour soutenir les solutions de données nécessaires.

Les outils sont là pour collecter de grandes quantités de données, mais ce sont les points de contact humains qui aident à nettoyer, analyser et étiqueter les données pour que vous obteniez exactement ce dont vous avez besoin.

Bien sûr, vous souhaitez maintenir les coûts à un niveau bas et vous voulez que votre innovation soit commercialisée avant la concurrence. Et vous voulez le faire bien, mais aussi vite.

Vous pouvez donc automatiser votre collecte de données et éliminer des points de contact humains importants qui garantissent la qualité et l’exactitude des données. Vous pouvez également sous-traiter la collecte et l’étiquetage à peu de frais, en faisant passer toute la gamme de données sans directives claires ni compensation équitable.

Mais ce dont vous avez besoin, c’est une collecte et une annotation de données spécialisées et assistées par l’homme, et non d’une solution globale et rapide. Cela vous permettra d’économiser de l’argent à long terme et d’obtenir exactement ce dont vous avez besoin.

Ne vous contentez pas d’une simple collecte de données

En tant que fournisseur de solutions linguistiques disposant d’une expertise en matière de données, notre rôle est de mettre en évidence toutes les façons dont nous pouvons personnaliser vos ensembles de données tout en vous orientant vers l’option de collecte la plus efficace et la plus économique pour votre solution.

Nous prenons actuellement en charge plus de 80 langues et plus de 200 paires de langues différentes. Nous analysons de grands ensembles de données d’entraînement et détectons les modèles qui posent problème par l’annotation, l’étiquetage et le marquage dans le but d’enrichir les données.

Laissez notre équipe de linguistes et d’experts en la matière de booster votre IA avec des données propres pour l’apprentissage automatique et l’évaluation des résultats produits.

Related Posts

Summa Linguae uses cookies to allow us to better understand how the site is used. By continuing to use this site, you consent to this policy.
Learn more