Jednym z istotnych tematów, którymi zajmują się badacze z Wojskowej Akademii Technicznej, jest konwersja głosu. O tym, czym jest, gdzie możemy się z nią spotkać oraz jakie niesie szanse i zagrożenia z por. mgr. inż. Tomaszem Walczyną z Wydziału Elektroniki WAT, współautorem wraz z dr. hab. inż. Zbigniewem Piotrowskim, prof. WAT, publikacji „Overview of Voice Conversion Methods Based on Deep Learning”, która ukazała się w czasopiśmie „Applied Sciences”, rozmawia Dominika Naruszko.
Czym jest konwersja głosu?
Por. mgr inż. Tomasz Walczyna: Konwersja głosu to proces technologiczny, który pozwala przekształcić głos jednej osoby tak, aby brzmiał jak głos innej, przy jednoczesnym zachowaniu oryginalnej treści wypowiedzi. Innymi słowy, zmieniamy cechy charakterystyczne mówcy – takie jak barwa, ton czy akcent – bez ingerencji w to, co jest mówione.
Gdzie możemy się z tym spotkać?
Na co dzień spotykamy się z konwersją głosu w różnych dziedzinach. W przemyśle rozrywkowym jest wykorzystywana w dubbingu filmów i gier komputerowych, gdzie aktorzy mogą użyczyć swojego głosu postaciom o zupełnie innym brzmieniu. W aplikacjach i asystentach głosowych technologia ta pozwala na personalizację głosu urządzenia według preferencji użytkownika.
Konwersja głosu znajduje zastosowanie także w medycynie i terapii mowy. Osoby, które straciły zdolność mówienia z powodu choroby czy wypadku, mogą odzyskać swój głos lub uzyskać nowy, naturalnie brzmiący.
Wreszcie w nauce języków obcych technologia ta pomaga w doskonaleniu wymowy i akcentu poprzez dostosowanie brzmienia głosu do native speakera.
Konwersją głosu zajął się Pan w swoich badaniach – na jakim obszarze się Pan skoncentrował?
Skupiłem się na kompleksowym przeglądzie aktualnych metod konwersji głosu opartych na głębokim uczeniu. Celem było przybliżenie najnowszych osiągnięć w tej dziedzinie oraz analiza, w jaki sposób nowoczesne technologie, takie jak głębokie sieci neuronowe, przyczyniają się do poprawy efektywności i jakości konwersji głosu.
Rozłożyłem proces konwersji głosu na poszczególne komponenty, takie jak ekstrakcja tożsamości mówcy, ekstrakcja treści lingwistycznej, enkodery oraz dekodery i wokodery. Skupiłem się na każdym z tych elementów i przedstawiłem najnowsze techniki i modele wykorzystywane w badaniach, takie jak autoenkodery wariacyjne – VAE – czy generatywne sieci przeciwstawne – GAN.
Rozłożenie na takie komponenty pozwala lepiej odwzorować cały proces konwersji głosu, umożliwiając jednocześnie precyzyjne oddzielenie cech mówcy od treści wypowiedzi. Taki podział jest również praktyczny, ponieważ każdy z tych elementów może być zamieniany przez różne algorytmy, co daje większą elastyczność i pozwala na łatwe wprowadzanie nowych technik, takich jak VAE czy GAN, w celu poprawy jakości wyników. Chciałem również zidentyfikować wyzwania stojące przed naukowcami w tej dziedzinie, takie jak potrzeba dużych zbiorów danych treningowych czy złożoność ludzkiej mowy.
I do jakich ciekawych wniosków Pan doszedł?
Przede wszystkim zauważyłem, że najnowsze techniki, takie jak ostatnio popularne modele dyfuzji, głównie wykorzystywane w generowaniu obrazów, znacząco podnoszą jakość generowanego głosu. Dzięki nim przy umiejętnym połączeniu z innymi technikami możliwe jest osiągnięcie poziomu naturalności, który sprawia, że syntetyzowany głos jest niemal nie do odróżnienia od prawdziwego w ocenie subiektywnej!
Integracja różnych zaawansowanych metod, takich jak autoenkodery wariacyjne i generatywne sieci przeciwstawne, prowadzi do efektywnego oddzielania cech mówcy od treści lingwistycznej. To z kolei umożliwia bardziej precyzyjną i naturalną konwersję głosu.
Zauważyłem również, że rozwój algorytmów zero-shot oraz technik uczenia bez nadzoru pozwala na konwersję głosu nawet przy ograniczonej ilości danych treningowych. Algorytmy zero-shot to takie, które są w stanie dokonać konwersji głosu bez potrzeby wcześniejszego trenowania modelu na próbkach głosu konkretnej osoby. Dzięki temu model potrafi przekształcić głos mówcy, nawet jeśli nigdy wcześniej nie miał dostępu do jego danych, co znacząco obniża wymagania dotyczące ilości danych treningowych i ułatwia szybkie zastosowanie technologii w nowych kontekstach, na przykład przy tworzeniu spersonalizowanych aplikacji głosowych. Jest to istotne, ponieważ redukuje barierę wejścia dla zastosowań komercyjnych i ułatwia adaptację technologii w różnych kontekstach.
Ponadto badania wskazują na rosnące znaczenie etycznych i dotyczących bezpieczeństwa aspektów konwersji głosu. Wraz z postępem technologicznym pojawiają się nowe wyzwania związane z ochroną tożsamości i zapobieganiem nadużyciom, co podkreśla potrzebę równoległego rozwoju mechanizmów zabezpieczających.
Przyszłość konwersji głosu leży w dalszym doskonaleniu algorytmów i modeli, a także w świadomym i odpowiedzialnym ich wykorzystaniu. Kontynuacja badań w tym kierunku przyczyni się do jeszcze lepszej jakości i dostępności technologii, otwierając nowe możliwości w różnych dziedzinach, takich jak medycyna, edukacja czy komunikacja międzynarodowa.
Jakie pozytywne zastosowania ma konwersja głosu?
Jednym z najbardziej innowacyjnych i obiecujących zastosowań jest tłumaczenie języków z użyciem głosu mówcy. Dzięki tej technologii możliwe jest przetłumaczenie wypowiedzi na inny język przy jednoczesnym zachowaniu unikalnych cech głosu pierwotnego mówcy. To oznacza, że podczas komunikacji międzynarodowej osoby mogą porozumiewać się bez bariery językowej, a ich głos nadal będzie brzmiał naturalnie i rozpoznawalnie dla odbiorców.
Inne pozytywne zastosowania konwersji głosu to np. te w medycynie i terapii mowy. Technologia ta pomaga osobom z zaburzeniami mowy lub po utracie głosu, umożliwiając im komunikację przy użyciu syntetycznego głosu, który może być dostosowany do ich naturalnego brzmienia.
Z kolei w obszarze mediów i rozrywki, np. w filmach, grach komputerowych i animacjach, konwersja głosu pozwala aktorom dubbingowym na użyczanie głosu postaciom o różnych cechach, zwiększając tym samym autentyczność i różnorodność.
W przypadku aplikacji mobilnych użytkownicy mogą personalizować głosy wirtualnych asystentów, takich jak Siri czy Alexa, co zwiększa komfort i indywidualizację interakcji z urządzeniami.
Technologia usprawnia także edukację. Uczniowie mogą korzystać z konwersji głosu do poprawy wymowy i akcentu, słysząc swoje wypowiedzi przekształcone tak, by brzmiały jak native speaker.
Sporo tych zastosowań…
Tak, a to tylko wybrane przykłady. Konwersja głosu zapewniać może też bezpieczeństwo i anonimowość. W sytuacjach wymagających ochrony tożsamości, takich jak zeznania świadków czy zgłaszanie przestępstw, zagwarantuje anonimowość mówcy przy zachowaniu klarowności przekazu.
Bardzo ważnym aspektem jest też możliwość poprawy dostępności. Osoby z różnymi potrzebami słuchowymi mogą korzystać z konwersji głosu do przekształcania mowy na bardziej zrozumiałe formy, co ułatwia komunikację.
Moim zdaniem szczególnie przełomowe jest wykorzystanie konwersji głosu w tłumaczeniach w czasie rzeczywistym. Pozwala na prowadzenie płynnych rozmów między osobami mówiącymi różnymi językami, co ma ogromne znaczenie w globalnym biznesie, dyplomacji, edukacji międzynarodowej oraz w turystyce. Technologia ta nie tylko eliminuje barierę językową, ale także zachowuje emocjonalny i osobisty charakter komunikacji, ponieważ głos mówcy pozostaje rozpoznawalny.
Lista tych pozytywów jest długa, jednak w przypadku tematu konwersji głosu podstawowym pytaniem jest to o zagrożenia związane z funkcjonowaniem narzędzi naśladujących naszą mowę. Jak ich uniknąć?
Chociaż technologia konwersji głosu niesie ze sobą wiele korzyści, istnieją również potencjalne zagrożenia związane z możliwością naśladowania czyjegoś głosu bez jego wiedzy lub zgody. Aby ich uniknąć, można podjąć różne kroki.
Powinniśmy wzmocnić bezpieczeństwo weryfikacji tożsamości. Nie polegać wyłącznie na weryfikacji głosowej jako środku autentykacji – takie techniki wykorzystuje się w różnych call center. Ważne jest wprowadzenie wielopoziomowych mechanizmów uwierzytelniania, takich jak hasła, tokeny czy biometryka wieloczynnikowa, aby utrudnić oszustom wykorzystanie podrobionego głosu.
W obszarze rozwoju technologii wykrywania deepfake’ów należy wspierać badania i rozwój narzędzi zdolnych do wykrywania syntetycznie generowanego głosu. Takie systemy mogą analizować subtelne różnice między prawdziwym a sztucznym głosem, pomagając w identyfikacji potencjalnych oszustw.
Bardzo istotna jest edukacja i świadomość społeczna, dlatego powinniśmy informować społeczeństwo o możliwościach i zagrożeniach związanych z technologią konwersji głosu. Świadomi użytkownicy ostrożniej podejdą również do udostępniania swoich danych głosowych, a także będą w stanie rozpoznać potencjalne próby oszustwa.
Powinniśmy na przykład zachowywać ostrożność m.in. w mediach społecznościowych. Bądźmy świadomi tego, co udostępniamy – w tym długich nagrań głosowych, które mogą być wykorzystane do trenowania modeli konwersji głosu.
Każdy z nas powinien chronić swoje dane osobowe – dbać o prywatność i bezpieczeństwo nagrań głosowych. Unikajmy udostępniania próbek swojego głosu w publicznie dostępnych miejscach oraz korzystajmy z usług, które szanują prywatność użytkowników.
Obowiązek tej ochrony spoczywa także na wszelkich organizacjach, które takie dane użytkowników zbierają.
Równolegle należy wprowadzać regulacje prawne i etyczne, m.in. przepisy prawne regulujące wykorzystanie technologii konwersji głosu. Jasne ramy prawne mogą zapobiegać nadużyciom i chronić prawa jednostek do ich własnego głosu.
Pomysłem na dbanie o bezpieczeństwo jest też stosowanie znaków wodnych i sygnatur, czyli implementowanie technologii, które dodają niewidoczne dla ucha ludzkiego sygnatury do oryginalnych nagrań głosowych. Pozwala to na weryfikację autentyczności nagrania i wykrycie manipulacji.
Poprzez zastosowanie tych wszystkich środków możemy zminimalizować ryzyko nadużyć związanych z technologią naśladującą naszą mowę, jednocześnie czerpiąc korzyści z jej pozytywnych zastosowań. Ważne jest, aby podchodzić do tej technologii z rozwagą i odpowiedzialnością, dbając o ochronę naszej tożsamości i prywatności.
Czy naukowcy opracowują rozwiązania, które mogą nas chronić?
Oczywiście, aktywnie opracowują rozwiązania mające na celu ochronę przed zagrożeniami związanymi z technologiami naśladującymi naszą mowę. Z roku na rok rośnie liczba publikacji naukowych dotyczących zarówno generowania, jak i wykrywania deepfake’ów głosowych czy wizualnych. Świadczy to o intensywnych pracach badawczych prowadzonych w tej dziedzinie, które można porównać do swoistego „wyścigu zbrojeń” między twórcami a osobami pracującymi nad zabezpieczeniami.
Wielu badaczy skupia się na tworzeniu zaawansowanych algorytmów zdolnych do wykrywania syntetycznie generowanego głosu. Celem jest identyfikacja nawet najbardziej realistycznych podróbek, co ma kluczowe znaczenie dla ochrony prywatności i bezpieczeństwa użytkowników. Jednocześnie niektóre z tych algorytmów nie są publikowane publicznie. Jest to świadome działanie, ponieważ ujawnienie szczegółów technicznych mogłoby ułatwić potencjalnym oszustom obejście mechanizmów obronnych.
Dzięki tym badaniom powstają coraz skuteczniejsze narzędzia do wykrywania i przeciwdziałania nadużyciom związanym z konwersją głosu. Naukowcy starają się przewidywać możliwe zagrożenia i opracowywać metody ich neutralizacji, co przyczynia się do zwiększenia ogólnego bezpieczeństwa technologii głosowych.
Czy rozwija Pan temat konwersji głosu podjęty w artykule?
Tak, rozwijam, rozszerzając go o nowe obszary badawcze. Obecnie skupiam się na generowaniu wizualnych deepfake’ów, aby móc je następnie łączyć z przekształconym głosem. Praca nad tymi technologiami pozwala na głębsze zrozumienie zarówno metod tworzenia syntetycznych treści, jak i sposobów ich wykrywania oraz przeciwdziałania potencjalnym nadużyciom.
Opracowywanie algorytmów deepfake i publikowanie wyników badań w tej dziedzinie jest kluczowe dla rozwoju skutecznych strategii obronnych. Pozwala to nie tylko na doskonalenie technik generatywnych, ale również na identyfikację słabych punktów, które mogą być wykorzystane w celu poprawy algorytmów detekcji.
Jeśli chodzi o algorytmy detekcji, w niektórych przypadkach są one wykorzystywane do ulepszania samych modeli generatywnych. Z tego powodu, aby uniemożliwić utworzenie algorytmów wykorzystujących słabe punkty detektorów, mimo że temat jest aktywnie rozwijany, nie wszystkie aspekty mogą być przedstawione w formie publicznie dostępnych artykułów naukowych. Często udostępnia się jedynie ograniczone wersje lub interfejsy API, które pozwalają użytkownikom na testowanie w określonym zakresie.
Dzięki kontynuacji badań w tym kierunku mam nadzieję przyczynić się do lepszego zrozumienia zarówno potencjału, jak i ryzyka związanego z technologiami deepfake, co w konsekwencji pomoże w opracowaniu skuteczniejszych narzędzi ochrony w tej dziedzinie.
Dominika Naruszko
Fot. Marcin Wrzos