Wielka meta-ewaluacja tłumaczeń maszynowych

Ostatnia aktualizacja: 29 września, 2021

tłumaczenia maszynowe, rozwój sztucznej inteligencji

Na ile oceny ekspertów są wiarygodne?

Przez lata eksperci i miłośnicy tłumaczenia maszynowego byli zgodni co do jednego – jakość tej technologii stale wzrasta i już niebawem zbliży się do poziomu żywego tłumacza. Jednak nowe badania stawiają tę tezę pod znakiem zapytania, analizując stosowane do tej pory standardy oceny jakości tłumaczeń maszynowych. Czy entuzjaści MT zignorowali ważne wskaźniki?

Tłumaczenie maszynowe pod lupą

Naukowcy National Institute of Information and Communications Technology w Kyoto w Japonii, wyraźnie nie dali ponieść się fali entuzjazmu, jaki świat żywi wobec rozwijającej się wciąż sztucznej inteligencji. Ich sceptyczne podejście wobec geniuszu tłumaczeń maszynowych znalazło swój wyraz w jednym z najbardziej obszernych badań nad jakością tekstów tłumaczonych przez komputer.

Analizie poddanych zostało 769 prac badawczych, opublikowanych w antologii Association of Computational Linguistics. Jak wybrano odpowiedni materiał do przeprowadzenia badania? Skupiono się na pracach z lat 2010-2020, które w tytule zawierały  słowa kluczowe „MT” lub „translation” i porównywały ze sobą co najmniej dwa systemy tłumaczenia maszynowego.

W wyniku tego karkołomnego przedsięwzięcia powstało obszerne opracowanie pod tytułem „Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers”. W badaniu zwrócono uwagę na kilka głównych problemów związanych z oceną jakości MT, w tym na zbyt ścisłe przywiązanie do skali BLEU.

badania nad sztuczną inteligencją

Skala BLEU kontra tłumaczenia maszynowe

Powszechność stosowania skali BLEU w ocenie MT jest powszechnie znana, jednak zaskakiwać może to, jak niepodzielnie ta metoda badawcza zawładnęła wyobraźnią ekspertów. 98,8% analizowanych prac powoływało się na wyniki BLEU, przy czym 74,3% bazowało wyłącznie na nich. Odsetek takich prac wydaje się wciąż wzrastać. Jak wynika z badań – na punktację TER lub METEOR powoływały się zazwyczaj artykuły, opublikowane w pierwszych latach analizowanej dekady.

Okres 2010-2020 został wybrany jako przedmiot badania naukowców celowo. To właśnie w tych latach nastąpił gwałtowny rozwój technologii MT, który przełożył się również na wzrost liczby wskaźników. Do międzynarodowej wiadomości przedstawionych zostało co najmniej 108 nowych pozycji, ale 89% z nich nigdy nie zostało wykorzystanych w żadnym opracowaniu naukowym.

Prawdopodobną przyczyną takiego stanu rzeczy jest skostniała struktura publikacji, w których autorzy zobligowani są do analizowania i porównywania swoich hipotez z wcześniej wydanymi pracami. A te, zgodnie z przewidywaniami, bazują właśnie na skali BLEU. Dodatkowo interpretacja wyników uzyskanych tą samą metodą badawczą jest po prostu łatwiejsza. Co gorsza, zastosowanie skali BLEU może być wymagane przez niektórych recenzentów, aby w ogóle dopuścić artykuł do publikacji.

Czy skala BLEU jest zła?

Bazowanie wyłącznie na wynikach BLEU może prowadzić do sporej komplikacji, jaką jest porównywanie rezultatów skopiowanych z innych prac bez ich sprawdzenia w rzeczywistości. Takie podejście pozwala na uzyskanie znaczących oszczędności, co czyni je pokusą trudną do opanowania. Wystarczy wspomnieć, że przed 2015 rokiem kopiowanie wyników z innych prac było rzadkością, podczas gdy w roku 2020 aż 40% publikowanych artykułów posiłkowało się takimi danymi.

Porównywanie skopiowanych wyników skutkuje pomijaniem testów istotności statystycznej i wyciąganiem wniosków na podstawie rezultatów, których przypadkowość nie została zbadana. Nie dziwi zatem, że meta-ewaluacja wykazała gwałtowny spadek testów istotności statystycznej od 2016 roku – w ciągu roku ich przeprowadzenie odnotowano zaledwie dla 65% prac.

Meta-ewaluacja wykazała, że coraz większy odsetek prac dotyczących MT (38,5% w latach 2019-2020) wyciągał wnioski o wyższości konkretnej metody lub algorytmu na podstawie niesprawdzonych wyników. To oznacza, że niewiele prac wykorzystywało wstępnie przetworzone, publicznie udostępnione zbiory danych MT. W efekcie, rezultaty takich prac badawczych mogą okazać się niewiarygodne.

Jeśli interesuje Cię tematyka tłumaczeniowa, sprawdź nasze artykuły na temat tłumaczenia odwrotnego i maszynowego tłumaczenia treści globalnych.

rozwój sztucznej inteligencji

Powiązane wpisy

Summa Linguae korzysta z plików cookie dla lepszego rozumienia sposobu korzystania ze strony internetowej. Dalsze korzystanie z tej strony internetowej jest równoznaczne z wyrażeniem zgody na politykę cookies.

Więcej