Tłumaczenie maszynowe oparte na regułach a tłumaczenie maszynowe statystyczne i neuronowe

Tłumaczenia maszynowe oparte na regułach i statystykach długo były uznawane za kanciaste i nienaturalne. Język to przecież nie tylko słowa, ale także drobne niuanse i reguły, które są trudne do okiełznania i zamknięcia w sztywnych ramach. By przetłumaczyć tekst, nie wystarczy zamiana fraz z języka A na B. Potrzebne jest zrozumienie gramatyki, wychwycenie zwyczajów językowych i kulturowych. Coraz lepiej radzą sobie z tym algorytmy sztucznej inteligencji i sieci neuronowe. Z ich pomocą powstają przekłady zbliżone do doskonałych. Sprawdzamy, jak działają te technologie.

Jeśli tłumaczenia maszynowe kojarzą Ci się przede wszystkim z początkami Google Translatora, być może zdziwisz się, że istnieją aż trzy rodzaje systemów do tłumaczeń wspomaganych komputerowo. Mowa o programach opartych na regułach, statystycznych i neuronowych tłumaczeniach maszynowych. Ostatnia ze wspomnianych technologii jest najbardziej zaawansowana i jednocześnie spełnia wyśrubowane wymogi branży tłumaczeniowej.

Nowe technologie i wymagania napędzają zmiany

Obecnie przekłady mają być szybkie, bezbłędne i spójne, szczególnie gdy mówimy na przykład o branżach e-commerce czy technicznej, gdzie coraz częściej setki specjalistów pracuje jednocześnie nad zapytaniami klientów, instrukcjami czy opisami produktów. Dlatego też nowoczesne systemy tłumaczeniowe bazują na szybkich i wydajnych silnikach deep learning (głębokiego uczenia). Ta sama technologia napędza rozwój między innymi rozpoznawania obiektów, które stosuje się w systemach monitoringów czy nawet w samochodach osobowych.

Deep learning a machine learning – niuanse, które robią różnicę

Deep learning to podkategoria technologii machine learning (uczenia maszynowego). W uczeniu maszynowym komputer czerpie wiedzę z nadzorowanego przez człowieka procesu. Do maszyny wprowadza się tysiące przykładów szkoleniowych, na przykład zdjęć kotów i elementów charakterystycznych dla tych zwierząt. Następnie człowiek poprawia błędy programu i dzięki temu system uczy się rozpoznawać obraz kota spośród tysięcy zdjęć. W tym wypadku proces uczenia się jest jednak dość czasochłonny i ma pewne ograniczenia.

Przełomem jest więc uczenie głębokie, ponieważ nie musi być ono nadzorowane przez człowieka. Wiąże się to z tworzeniem dużych sieci neuronowych, które pozwalają systemowi uczyć się i działać samodzielnie. W tym wypadku nie można więc mówić o linearnej logice, charakterystycznej dla programów komputerowych, ale raczej o pracy wzorowanej na działaniu ludzkiego mózgu. Oprogramowanie uczy się i doskonali po każdym nowym doświadczeniu.

Tłumaczenia maszynowe wzorowane na pracy ludzkiego mózgu

W ten sposób działają sieci neuronowe wykorzystywane w nowoczesnych tłumaczeniach maszynowych. Specjaliści od machine translation opracowali systemy, które mają dziś szerokie zastosowanie w biznesie. Można w pełni zintegrować je na przykład z systemami CMS i narzędziami do automatyzacji procesów, dzięki czemu przekłady i wprowadzanie treści przebiegają niemal w czasie rzeczywistym. System przechowuje wykorzystane dane, dzięki czemu mogą one być ponownie użyte w kolejnym tłumaczeniu, a cały proces jest stale ulepszany. Maszyna uczy się bowiem na podstawie korekt wcześniej popełnionych błędów.

Wielojęzyczna komunikacja w globalnych przedsiębiorstwach jest dzięki temu znacznie usprawniona. Choć coraz częściej mówi się o tym, że sztuczna inteligencja może zastąpić człowieka, nawet w przypadku tak zaawansowanej technologii specjaliści zajmują się także postedycją i weryfikacją przekładów.

Systemy oparte na regułach i statystykach

Tłumaczenia oparte o sieci neuronowe postrzegają zdanie jako całość, uwzględniając także kontekst. Dlatego też przekłady są znacznie bardziej naturalne niż tłumaczenia oparte na regułach (RMBT). Ta starsza technologia bazuje na kombinacji reguł językowych, gramatycznych i słownikach. Taki system, by przeanalizować tekst, potrzebuje obszernych leksykonów, z kompletnym zestawem reguł językowych.

Bardziej zaawansowane są systemy statystyczne. Choć nie znają one reguł, „uczą się” tłumacząc duże ilości danych. Dlatego też sprawdzają się na przykład przy tłumaczeniach przeznaczonych dla określonej branży. Choć i w tym wypadku pojawiają się problemy, przykładowo z poprawnym szykiem zdań, który różni się w zależności od języka. Nie można się jednak dziwić, że nie jest to idealna technologia, bo liczy ona już niemal 70 lat.