Systemy rozpoznawania mowy – do czego można ich używać?

Trzy główne typy oprogramowania do rozpoznawania głosu, a rozwój sztucznej inteligencji

Nowoczesne technologie potrafią zaskakiwać. Szczególnie, jeśli chodzi o systemy rozpoznawania mowy. Sprawdzają się one doskonale w branży IT, a ich efektywność umożliwia np. pobudkę na czas do pracy, zdalne włączenie sprzętu grającego, czy wykonanie połączenia do znajomego. Jakie jeszcze niespodzianki szykują nam programy do rozpoznawania mowy?

System rozpoznawania mowy – co to jest?

Zaprojektowanie systemu rozpoznawania mowy wymaga posiadania odpowiedniej bazy danych. W tym konkretnym przypadku potrzeba nagrań audio ludzkiej mowy, przeznaczonych do trenowania sztucznej inteligencji. Następnie tworzona jest transkrypcja, czyli zapis tekstowy wszystkich słów, jakie padły w nagraniu.

Kiedy transkrypcja jest gotowa, jest ona udostępniania razem z nagraniem audio algorytmom uczenia maszynowego jako dane treningowe. Pozwala to systemowi opanować rozpoznawanie dźwięków oraz znaczenie poszczególnych słów.

Jak pozyskać dobrą bazę nagrań, skoro większość utworów chroniona jest na mocy praw autorskich? Choć istnieje wiele źródeł takich danych, w tym publicznie dostępne gotowe zestawy, w większości przypadków konieczna jest współpraca z dostawcą usług w celu zgromadzenia własnej bazy (co możemy jako Summa Linguae Technologies z przyjemnością zapewnić).

Własny zbiór danych pozwala na dostosowanie systemu rozpoznawania mowy do takich czynników, jak język, grupa wiekowa, specyficzne wymagania dźwiękowe czy wielkość zbioru.

Typy systemów rozpoznawania mowy

Dane dźwiękowe obejmują całe spektrum przypadków, gdzie na jednym końcu znajdują się gotowe teksty czytane przez lektora, na drugim zaś rozmowy prowadzone spontanicznie i swobodnie z inną osobą. W środku zakresu znajdują się przypadki, gdzie lektorzy proszeni są o wygłoszenie naturalnie brzmiącego dialogu na podstawie ustalonego scenariusza. Ta klasyfikacja pozwala podzielić dane dźwiękowe na trzy kategorie.

Dane kontrolowane, a rozpoznawanie głosu

Dane kontrolowane pozyskiwane z nagrań przeprowadzanych na podstawie scenariusza stanowią najbardziej sterowany format informacji dźwiękowych. Dla celów rozpoznawania mowy, dane mowy zazwyczaj zawierają komendy głosowe, słowa wywołujące budzenie lub kombinację obu tych form.

Lektor może zostać poproszony o przeczytanie listy zapisanych wcześniej słów aktywacji i poleceń, sformułowanych w taki sposób, aby uchwycić różne brzmienia, na przykład:

Takie rozwiązania używane są przede wszystkim przez deweloperów aplikacji, których działanie opiera się na systemie rozpoznawania głosu (np. Siri, Alexa, Cortana). Ich celem nie jest zebranie próbek mowy różniących się treścią, ale formą. Dzięki temu twórca programu chce zyskać pewność, że algorytm dobrze uchwyci intencje użytkownika i wyjdzie naprzeciw jego oczekiwaniom.

Dane częściowo kontrolowane w ramach systemu rozpoznawania głosu

W ramach tego rozwiązania lektorzy proszeni są o wymyślenie własnych komend głosowych na podstawie podanego scenariusza, na przykład o różne sposoby zapytania Siri o drogę lub o spontaniczne ułożenie listy poleceń, które można wydać aplikacji bankowej.

Bazy danych dźwiękowych z nagrań częściowo kontrolowanych są kluczowe, jeśli deweloper potrzebuje informacji na temat różnorodnych sposobów wydawania poleceń. Sprawdzą się doskonale w przypadku, gdy urządzenie ma rozumieć codzienną mowę i wszystkie niuanse, jakie się z nią wiążą.

Ten kij ma dwa końce – ze względu na ogromną różnorodność możliwych sposobów sformułowania tego samego zapytania czy wypowiedzi, zbiory danych częściowo kontrolowanych wymagają znacznie większej ilości danych dla osiągnięcia wymaganej efektywności.

Dane pozyskiwane naturalnie – zastosowanie AI

Dane pozyskiwane naturalnie pochodzą z nagrań rozmów pomiędzy kilkoma osobami. To najbardziej „naturalny” format, który może przybrać kształt rozmowy telefonicznej, dialogu, a nawet konwersacji odbywanej przez wielu lektorów w zatłoczonym pomieszczeniu.

Jak działa to w praktyce? Jeśli deweloper potrzebuje danych naturalnych na określony temat (np. teatru), może zlecić kilku lektorom przeprowadzenie rozmowy dotyczącej tego właśnie obszaru. Dane takie są wykorzystywane do szkolenia aplikacji sztucznej inteligencji w zakresie dynamiki rozmowy prowadzonej przez wielu mówców.

Na tym rozwiązaniu bazuje między innymi nowa aplikacja o nazwie GalaPro, która wykorzystuje opatentowaną technologię rozpoznawania głosu, aby zapewnić napisy dla osób niedosłyszących. Podczas spektaklu, występu, czy przemówienia smartfon wyłapuje dźwięki i przetwarza je na tekst, który następnie wyświetla w formie napisów na ekranie telefonu. Jak widać, system rozpoznawania mowy sprawdza się nie tylko w branży IT!

Poznaj nasze usługi gromadzenia i analizy danych

Summa Linguae Technologies jest jednym z liderów świadczących usługi gromadzenia danych, opracowywania terminologii, specjalistycznych słowników i wielojęzycznej analizy językowej. Dowiedz się więcej o możliwych rozwiązaniach dla Twojego biznesu z zakresu analizy danych!