Amazon oznacza niskiej jakości dane do szkolenia dużych modeli językowych (LLM)

Ostatnia aktualizacja: 4 kwietnia, 2024

Istnieją narzędzia pozwalające gromadzić duże ilości danych do szkolenia modeli LLM, ale dzięki interwencji człowieka dane te mogą być skuteczniej oczyszczane, analizowane i oznaczane, aby uzyskać dokładnie taki rezultat, jakiego potrzebujemy.

Specjaliści ds. danych z Amazon poinformowali niedawno, że „szokująco duży segment sieci jest tłumaczony maszynowo” na wiele języków, dodając, że jakość tych wielokierunkowych tłumaczeń jest często niska.

Chyba nie powinien być dla nikogo zaskoczeniem fakt, iż wielokierunkowe tłumaczenia równoległe — czyli obejmujące dużą liczbę języków — były znacznie niższej jakości w porównaniu z 2-kierunkowymi tłumaczeniami równoległymi.

„Im większa liczba języków, na które przetłumaczono zdanie, tym niższa jakość tłumaczeń, co sugeruje większą powszechność tłumaczenia maszynowego” — stwierdzili badacze.

Problem ten nie dotyczy wyłącznie tłumaczeń obejmujących języki o niższych zasobach, jest bowiem obecny w „dużej części zasobów stron internetowych”.

Trend ten obserwujemy w ośmiu kierunkach poniższych par językowych:

  • angielski → niemiecki
  • niemiecki → angielski
  • francuski → niemiecki
  • niemiecki → francuski
  • angielski → japoński
  • japoński → angielski
  • angielski → chiński
  • chiński → angielski

Jak rozumieć te wnioski? Cóż, budzi to „poważne obawy” co do jakości danych do szkolenia dużych modeli językowych (LLM), ekstrahowanych ze stron internetowych w procesie „web scrapingu”.

Jeśli dane szkoleniowe pochodzą z tłumaczenia maszynowego niskiej jakości, stwarza to zagrożenie, że modele LLM, a tym samym innowacyjne systemy sztucznej inteligencji (AI) zbudowane na ich podstawie, będą mniej skuteczne, a nawet niegodne zaufania.

Specjaliści ds. danych z Amazon podkreślają, że jakość danych jest kluczowa w szkoleniu modeli LLM, zauważając, że nowoczesne systemy AI działają w oparciu o ogromne ilości danych szkoleniowych — od setek miliardów do kilku bilionów tokenów. Szkolenie na tak dużą skalę możliwe jest tylko przy użyciu danych wyekstrahowanych z sieci, ale powszechność treści tłumaczonych maszynowo, zwłaszcza w przypadku języków o niższych zasobach, może zaburzać płynność działania modeli i zwiększać częstotliwość występowania tzw. „halucynacji”.

Oto, co Gert Van Assche, nasz dyrektor ds. technologii, ma do powiedzenia na temat tych badań:

„Dziękujemy, #Amazon: Wreszcie mamy naukowy dowód potwierdzający zjawisko, które zauważyliśmy również w #SummaLinguae: strony internetowe dostępne w wielu językach (wielokierunkowe dane równoległe) rzadko są wynikiem ludzkiego #tłumaczenia lub ludzkiej weryfikacji. Badacze zaobserwowali ten problem przy językach o niskich zasobach, ale nie zdziwiłbym się, gdyby to samo dotyczyło wszystkich języków. Najlepsza sugestia znajduje się jednak w ostatnim akapicie artykułu. Polecam się z nim zapoznać.”

Dane do szkolenia modeli LLM: podejście „człowiek w pętli” (Human-in-the-Loop)

Nie bez powodu stanowiska takie jak inżynierowie danych i architekci rozwiązań są obecnie powszechne u dostawców rozwiązań językowych.

Dostawcy znają wyzwania związane z rozwojem technologii AI z pierwszej ręki, dlatego zatrudniają własnych ekspertów technicznych, aby rozwijać niezbędne rozwiązania w zakresie danych.

Istnieją narzędzia pozwalające gromadzić duże ilości danych, ale dzięki interwencji człowieka dane te mogą być skuteczniej oczyszczane, analizowane i oznaczane, aby uzyskać dokładnie taki rezultat, jakiego potrzebujemy.

W swojej firmie chcesz oczywiście utrzymać koszty na niskim poziomie, ale jednocześnie wprowadzić swoje innowacje na rynek zanim zrobi to konkurencja. Chcesz to zrobić dobrze, ale też szybko.

Możesz więc zautomatyzować zbieranie danych i pominąć istotny czynnik ludzki, który zapewnia jakość i dokładność. Możesz też tanio zlecić zbieranie i oznaczanie danych, z zastosowaniem szeregu rozwiązań, ale bez jasnego kierunku i uczciwego wynagrodzenia.

Optymalnym wyborem jest jednak wyspecjalizowane, wspomagane przez człowieka zbieranie i anotacja danych, a nie kompleksowe, szybkie rozwiązanie. Dzięki temu dostajesz dokładnie to czego potrzebujesz, a jednocześnie oszczędzasz pieniądze w perspektywie długoterminowej.

Nie zadowalaj się ekstrakcją danych

Naszą rolą jako dostawcy rozwiązań językowych z doświadczeniem w zakresie danych jest oferowanie jak najszerszej palety sposobów, w jaki możemy dostosować Twoje zbiory danych, a jednocześnie dobór opcji zbierania danych, które będą najbardziej skuteczne i atrakcyjne cenowo dla Twojego rozwiązania.

Obecnie obsługujemy ponad 80 języków i ponad 200 różnych par językowych. Analizujemy duże zbiory danych szkoleniowych i wykrywamy wzorce, które powodują problemy, stosując anotację, etykietowanie i tagowanie w celu wzbogacenia danych.

Skorzystaj z usług naszego zespołu językoznawców i ekspertów merytorycznych, aby wzmocnić swoje rozwiązanie AI dzięki czystym danym do uczenia maszynowego i oceny uzyskanych wyników.

 

Powiązane wpisy

Summa Linguae korzysta z plików cookie dla lepszego rozumienia sposobu korzystania ze strony internetowej. Dalsze korzystanie z tej strony internetowej jest równoznaczne z wyrażeniem zgody na politykę cookies.

Więcej