Których języków algorytmy tłumaczeń maszynowych uczą się najszybciej?

Robotic Hand with Cylinder and Shape Sorting Toy. Machine Learning and Recognition

Tłumaczenia maszynowe i przełamywanie barier w przypadku nietypowych języków

Na świecie istnieje ponad 7 000 języków, a aż 4 000 z nich korzysta ze słowa pisanego. Jednak tłumaczenia maszynowe obsługują nieco ponad 100! Z czego konkretnie wynika ten stan rzeczy i jakie czynniki mają na niego wpływ? Które języki najlepiej sprawdzają się w przypadku tłumaczeń maszynowych? W jaki sposób tłumaczenia maszynowe mogą wpływać na przełamanie bariery językowej?

Ograniczenia tłumaczeń maszynowych

W dobie postępującej globalizacji chyba każdemu zdarzyło się choć raz w życiu zetknąć z tekstem napisanym w języku, którego nie znał. Pewnie nie było to żadnym problemem w przypadku mało znaczących komunikatów, ale co, jeśli od treści takiej wiadomości miałby zależeć ważny kontrakt lub wielomilionowy przetarg?

Treści sporządzone w języku anielskim, francuskim, hiszpańskim czy niemieckim nie powinny nastręczać większych problemów. W końcu wystarczy przekopiować tekst do okienka jednego z popularnych translatorów internetowych i wybrać odpowiedni język docelowy tłumaczenia. W trudniejszych przypadkach można skorzystać z oferty profesjonalnego biura tłumaczeń. Co zrobić, jeśli taki komunikat napisany został na przykład w języku Wolof albo Ewe? Lub w nieco mniej egzotycznie brzmiącym języku, jak  macedoński, słoweński lub norweski?

PS Więcej informacji na temat potencjału poszczególnych języków dla biznesu dowiesz się z naszego poprzedniego artykułu.

Kryteria wyboru języków

W tym momencie pojawia się kłopot, ponieważ żaden z tych języków nie jest obsługiwany przez algorytmy sieci neuronowych odpowiedzialne za jakość tłumaczeń maszynowych. Z całą pewnością nie wynika to z małej popularności liczącej ponad 200 dialektów rodziny języków afrykańskich – posługuje się nimi wszak aż 1/7 światowej populacji.

Przyczyną nie może być też złożoność leksykalna, ponieważ według badań amerykańskiego Foreign Service Institute, języki afrykańskie znajdują się wśród najprostszych do opanowania dla Anglosasów. A to wszak od przedstawicieli tej grupy w przypadku rozwoju sieci neuronowych zależy najwięcej! Co więc decyduje o tym, że niektóre języki mogą być bez problemu tłumaczone maszynowe, inne zaś nie?

Jeśli ciekawi Cię, w jaki sposób dialekty i akcenty mogą wpływać na biznes, zapoznaj się z treścią naszego poprzedniego artykułu!

Problem tkwi w… źródłach!

Aby odpowiedzieć sobie na powyższe pytanie, trzeba najpierw wiedzieć, że algorytmy tłumaczeń maszynowych działają dzięki silnikom utworzonym na podstawie baz tłumaczeniowych, sporządzonych przez ludzkich tłumaczy.

Dla popularnych kombinacji językowych bazy takie liczą miliony słów. Duży wkład w ich rozwój wniosły takie wielojęzyczne instytucje, jak Parlament Kanady, ONZ oraz Unia Europejska. Podmioty te udostępniły swoje zasoby tłumaczeniowe, sporządzone przez profesjonalnych, zawodowych tłumaczy. Skalę tego zjawiska może zobrazować choćby fakt, że sam Parlament Europejski w ciągu dekady zlecił przetłumaczenie ponad 1,3 miliarda słów na aż 23 języki.

Problem niewielkiej różnorodności językowej tłumaczeń maszynowych nie polega na braku popularności niektórych języków, ale na braku przetłumaczonych przez żywych tłumaczy baz zasobów, które umożliwiłyby stworzenie odpowiednich silników tłumaczeniowych.

machine learning

Tłumaczenia maszynowe, a bariera językowa

Na świecie powstaje wiele projektów, mających na celu przełamanie bariery językowej w tłumaczeniach maszynowych i zapewnienie ludziom szerszego dostępu do informacji. Jednym z przykładów takiego działania jest projekt prowadzony przez organizację IARPA. Zespół naukowców i programistów pracuje nad stworzeniem systemu, który wyszukiwałby, tłumaczył i podsumowywał informacje sporządzone w językach o niewielkiej bazie zasobów.

Innym przykładem przełamywania bariery językowej w tłumaczeniu maszynowym może być projekt „Fellowship for African AI”, który z kolei skupia się na rozwinięciu bazy tłumaczeniowej materiałów sporządzonych w 9 językach afrykańskich używanych w 22 krajach przez ponad 300 milionów osób. Jednym z długofalowych wyników tych działań ma być utworzenie platformy korzystającej z technologii „Text-to-speech”, umożliwiającej werbalizację tłumaczeń dla wszystkich języków afrykańskich.

Carl Rubino, manager działu programowania w IARPA zauważa:

„Im bardziej człowiek interesuje się kwestią zrozumienia otaczającego go świata, tym bardziej powinien dążyć do uzyskania dostępu do informacji, które nie zostały sporządzone w języku angielskim”.

I nie da się odmówić tym słowom racji! Bo to właśnie od naszych starań i otwartości zależy szerokość i zakres naszego horyzontu.

Powiązane wpisy

Summa Linguae korzysta z plików cookie dla lepszego rozumienia sposobu korzystania ze strony internetowej. Dalsze korzystanie z tej strony internetowej jest równoznaczne z wyrażeniem zgody na politykę cookies.

Więcej