Microsoft opublikował dokumentację swojej nowo opracowanej sztucznej inteligencji VALL-E, która potrafi imitować ludzkie głosy. Nie byłoby w tym nic dziwnego – wszak mamy już wiele systemów przetwarzających tekst na mowę (TTS). Ale AI Microsoftu może jednak całkiem skutecznie naśladować czyjś głos, tembr i emocje, ucząc się na podstawie zaledwie 3-sekundowej próbki.
Wystarczy krótkie nagranie, by sieć neuronowa opracowała kodek dźwiękowy, który może „powiedzieć” dowolny tekst, a rozmówca będzie miał wrażenie, że konwersuje z prawdziwą osobą. VALL-E zostało wytrenowane na bazie 60 tys. godzin próbek mowy angielskiej. Na stronie (link wyżej) są dostępne specyfikacja i demonstracyjne nagrania audio.
VALL-E Microsoftu może zagrozić pracy aktorów podkładających głos w filmach i kreskówkach (choć raczej jeszcze nie teraz), ale nie tylko. Skoro systemy imitujące głos stały się tak zaawansowane i zarazem proste w użyciu, może pojawić się np. nowy typ oszustwa telefonicznego, polegającego na podszywaniu się pod bliskich. Odbierzemy pozornie głuchy telefon, a kilka słów wystarczy, by sieć neuronowa po drugiej stronie nauczyła się naśladować nasz głos.
Zapraszamy Was na nasz nowy kanał na YouTube – tvtech, który jest poświęcony zagadnieniom związanym z nowymi technologiami. Znajdziecie tam liczne porady dotyczące problemów z komputerami, konsolami, smartfonami i sprzętem dla graczy.
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS