Neural machine translation. Dlaczego algorytmy słabo radzą sobie tłumaczeniem z języka angielskiego?

Czy sieci neuronowe rzeczywiście lepiej radzą sobie z tłumaczeniami na język angielski, niż z przekładem na inne języki? Jak dużym wyzwaniem dla rozwiązań z zakresu tłumaczenia maszynowego jest przetłumaczenie tekstu technicznego na język węgierski lub fiński? Z czego wynikają te różnice?

Tłumaczenie maszynowe (Machine Translation – MT) jest obecnie jednym z głównych obszarów badawczych w zakresie procesów przetwarzania języka naturalnego. Najnowsze narzędzia do tłumaczenia maszynowego w większości bazują na technologii sieci neuronowych, która jest znacznie bardziej efektywna, niż statyczne mechanizmy tłumaczenia maszynowego używane wcześniej. Ponieważ jednak jest to rozwiązanie opracowane stosunkowo niedawno, wciąż nie ma pewności, czy wszystkie kierunki tłumaczeniowe stanowią dla sieci neuronowych jednakowe wyzwanie.

Tłumaczenie na język angielski

Morfologia z punktu widzenia językoznawstwa to dziedzina lingwistyki zajmująca się formami odmiennymi części mowy oraz słowotwórstwem. Definicja ta jest ważna z punktu widzenia tłumaczenia maszynowego, ponieważ wyniki przeprowadzonych badań jasno pokazują, że przekład na języki o bardzo rozwiniętej warstwie morfologicznej, takie jak fiński czy węgierski, stanowi dla sieci neuronowych znacznie większe wyzwanie, niż przekład na języki morfologicznie ubogie, jak np. angielski lub niemiecki. W przypadku tłumaczeń na język angielski okazuje się, że najtrudniejszym materiałem źródłowym jest ten napisany w języku litewskim – jednym z czterech funkcjonujących na świecie języków bałtyckich odznaczającym się aktywnym wykorzystaniem aż dziesięciu imiesłowów oraz ogromnym bogactwem wyjątków i odstępstw od zasad gramatycznych wynikających ze względów historycznych. Z kolei najłatwiejszym do tłumaczenia maszynowego materiałem źródłowym jest ten napisany w należącym do grupy języków romańskich, języku hiszpańskim, uchodzącym zresztą za jeden z najprostszych do przyswojenia.

Tłumaczenie z języka angielskiego

Choć mogłoby się wydawać, że na podstawie przytoczonych wyżej przykładów jasnym jest, że to właśnie tłumaczenie na język angielski jest łatwiejszym zadaniem dla rozwiązań z zakresu MT, naukowcy z Uniwersytetu Kopenhaskiego, amerykańskiego Uniwersytetu Johna Hopkinsa, Carnegie Mellon University i Uniwersytetu w Cambridge, a także japońskiego Tokyo Institute of Technology odkryli pewne zaskakujące fakty. W wyniku eksperymentu przeprowadzonego na grupie ponad 20 języków europejskich, w tym bułgarskiego, czeskiego, duńskiego, hiszpańskiego, litewskiego, fińskiego i węgierskiego, przy pomocy modelu wzajemnej wymiany informacji (Cross-Mutual Information – XMI), badacze ustalili, że choć uzyskane rezultaty wskazują na większą łatwość przekazywania informacji na język angielski, tłumaczenia z tego języka na fiński, grecki i hiszpański okazują się nieco bardziej efektywne w porównaniu z przekładem maszynowym w odwrotnym kierunku. Nie podważa to co prawda całkowicie założenia, iż to właśnie tłumaczenie z języka angielskiego na inne języki jest dla rozwiązań z zakresu MT trudniejsze, jednak pozostawia pewne pole do dalszych rozważań.

Jeszcze do niedawna możliwość kompletnego przetłumaczenia tekstu z jednego języka na drugi bez konieczności korzystania z usług profesjonalnego tłumacza, a jedynie przy pomocy oprogramowania komputerowego, pozostawała w sferze fantazji. Jednak wraz z rozwojem nauki, możliwość ta stała się faktem i zwyczajnym elementem codzienności każdego człowieka. I choć niewątpliwie na przyswajalność materiału źródłowego dla rozwiązań z zakresu tłumaczenia maszynowego wpływ ma wiele czynników, takich jak na przykład złożoność morfologiczna języka docelowego i źródłowego, przy obecnym tempie rozwoju sieci neuronowych różnice pomiędzy poszczególnymi kierunkami tłumaczeń prawdopodobnie już niebawem po prostu ulegną zatarciu.

Źródła:

https://jezykowasilka.pl/jezyk-litewski-jak-go-ugryzc/

https://www.aclweb.org/anthology/2020.acl-main.149.pdf