Jednym ze znaków charakterystycznych obecnych czasów jest to, że coraz więcej osób nagrywa filmy, podcasty lub inne materiały, głównie na media społecznościowe. W takich przypadkach najczęściej trzeba również zarejestrować dźwięk. Problem jest taki, że początkujący twórcy zazwyczaj wykorzystują do tego celu po prostu smartfony albo tanie mikrofony, a to jak wiadomo, nie gwarantuje najwyższej jakości głosu. Istnieje jednak narzędzie, które według deklaracji może wyraźnie pomóc w polepszeniu jakości nagranej mowy, redukując szum, pogłos i hałasy w tle. Usługa nosi nazwę Adobe Podcast i znajduje się obecnie w fazie Beta, czyli nie jest ukończona, lecz wciąż trwają prace nad jej udoskonaleniem. Warto jednak sprawdzić, jakie ma możliwości, bo może się okazać, że już teraz będzie bardzo przydatnym narzędziem dla części osób. W tym krótkim poradniku skupiam się tylko na funkcji ulepszania głosu, która jest dostępna dla każdego.
Autor: Tomasz Duda
Nikogo już chyba nie dziwi to, że funkcja Enhance Speech w Adobe Podcast wykorzystuje algorytmy AI do przetwarzania nagrań audio, rozpoznawania w nich głosu ludzkiego i wzmacniania oraz “czyszczenia” go, przy jednoczesnej redukcji odgłosów z tła. Cóż, zdaje się, że w obecnych czasach od sztucznej inteligencji coraz trudniej jest uciec i chyba trzeba się z tym pogodzić. Jedni powiedzą, że to zagrożenie dla ludzkości, a inni stwierdzą, że skoro nam to służy i pomaga, to warto z tego korzystać. Przypuszczam, że prawda leży gdzieś pośrodku. Z czym tak naprawdę mamy tutaj do czynienia? Po pierwsze: obecnie Adobe Podcast jest darmowy, a jedyne czego wymaga, to logowanie na własne konto Adobe. Po drugie: nie trzeba ściągać ani instalować żadnego programu, bo usługa działa online, czyli przez przeglądarkę internetową. Adres strony to: podcast.adobe.com/enhance.
Darmowa funkcja Enhance Speech w Adobe Podcast ma usuwać niepożądane dźwięki z tła oraz sprawiać, że głos nagrany mikrofonem będzie wyraźniejszy. Czy tak faktycznie jest? Sprawdź trzy przykłady poniżej i oceń czy to narzędzie Ci się przyda.
Sztuczna inteligencja do Twoich usług. Nowa funkcja Wypełnienie generatywne w Adobe Photoshop. Poradnik
Interfejs funkcji Enhance Speech jest minimalistyczny, a obsługa banalnie łatwa. Wystarczy przeciągnąć plik z nagraniem głosowym w odpowiednie pole albo opcjonalnie użyć przycisku Upload, aby wybrać plik zapisany w pamięci. Proces przetwarzania rozpocznie się samoczynnie, a po jego zakończeniu wystarczy kliknąć przycisk Download, aby pobrać efekt pracy algorytmów sztucznej inteligencji. Jak już chyba zauważyliście, usługa działa na razie wyłącznie w języku angielskim, ale myślę, że nie stanowi to problemu, bo tak jak napisałem wcześniej, całość działa na zasadzie przeciągnij i upuść. Fakt, że jest to narzędzie online, sprawia, że można z niego łatwo korzystać na różnych systemach i urządzeniach, w tym również na smartfonach. Twórcy deklarują, że wymagana jest przeglądarka Google Chrome, ale ja testowałem usługę np. na Safari i wszystko działało tak samo. W tej chwili Adobe Podcast potrafi obsłużyć tylko dwa typy plików: MP3 i WAV. Może w przyszłości zakres zostanie rozszerzony, ale na razie tyle wystarczy, tym bardziej że format WAV jest popularny i nieskompresowany, czyli zachowuje pełną jakość.
No dobrze, nie przedłużając, przejdę zatem do przykładowych nagrań mojego głosu. Wybrałem trzy sytuacje i w każdej z nich nagrywałem mowę najprostszymi metodami. Wiadomo, że nie sztuką jest “wyczyścić” i ulepszyć dźwięk nagrany przy użyciu świetnego mikrofonu. Trudniej robi się wtedy, gdy ktoś np. nagrywa materiał na smartfonie, w warunkach polowych. Po pierwsze: rejestrowałem głos mikrofonem telefonu Google Pixel 6a, gdy siedziałem we wnętrzu samochodu. W tym przypadku było słychać pogłos i byłem ciekawy, jaki będzie rezultat działania AI. Czy faktycznie wyeliminuje go i czy sprawi, że ludzka mowa będzie brzmiała tak, jakby była nagrana lepszym sprzętem? Poniżej umieściłem to samo nagranie, tylko że pierwsze z nich jest oryginalne (nagrane przez smartfon), a drugie zostało ulepszone przez algorytmy Enhance Speech w Adobe Podcast. Posłuchaj obu i oceń, czy słyszysz różnicę. Uwaga! Zdecydowanie zalecam korzystanie w tym celu ze słuchawek i ustawienie trochę wyższego poziomu głośności, aby szum tła i pogłos były słyszalne w pierwszym nagraniu.
Moim zdaniem różnica jest znaczna. Czy na lepsze? Oceńcie we własnym zakresie. Z pewnością funkcja Enhance Speech w Adobe Podcast silnie zredukowała pogłos i szum ruchu ulicznego na zewnątrz pojazdu (dodam, że okna i drzwi w samochodzie były zamknięte, a wentylacja wyłączona). Pierwsze wrażenie jest takie, jakby włączona była funkcja ANC w słuchawkach. Sam głos faktycznie brzmi wyraźniej i mocniej, ale jednocześnie muszę przyznać, że niektóre głoski brzmią trochę sztucznie (można to usłyszeć na słuchawkach przede wszystkim). Ogólna jakość na pewno jest wyższa, szczególnie jeśli weźmiemy pod uwagę to, że nagranie było robione za pomocą mikrofonu w telefonie, który w dodatku był oddalony od ust o prawie metr. Sądzę, że jeśli w podobnych warunkach nagrywałbym lepszym mikrofonem, choćby zewnętrznym, krawatowym, to oprócz “wyczyszczenia” tła mógłbym liczyć na znacznie bardziej atrakcyjny, naturalnie brzmiący głos.
Kolejny przykład stanowi większe wyzwanie dla algorytmów AI. Tutaj mowa też została nagrana prostym mikrofonem w smartfonie, ale w bezpośrednim sąsiedztwie ruchliwej ulicy, w dodatku w wietrzny dzień. Szumy pojazdów przejeżdżających kilka metrów obok oraz inne odgłosy są wyraźnie słyszalne, a do tego dochodzą zakłócenia wywołane ruchem powietrza. Nawet w oryginale głos ludzki jest zrozumiały, ale całość mimo wszystko nie brzmi najlepiej. Czy funkcja Enhance Speech poradzi sobie z tą wymagającą sytuacją? Porównaj dwa poniższe nagrania i oceń samodzielnie. Moim zdaniem nie ulega wątpliwości, że nawet po przetworzeniu przez AI dźwięki w tle i częściowo zakłócenia powodowane przez wiatr nadal są słyszalne, ale mimo wszystko zostały zredukowane i już nie przeszkadzają tak mocno. Jeśli więc ktoś nagrywałby jakiś film lub sam dźwięk smartfonem w plenerze, to taki zabieg mógłby pomóc w lekkiej poprawie jakości. Mimo wszystko uważam jednak, że algorytmy nie poradziły sobie idealnie z tym zadaniem. Być może gdy usługa wyjdzie z fazy beta, ta kwestia zostanie poprawiona, ale obecnie w tak wymagających okolicznościach nie można liczyć na zaskakująco dobre efekty.
Trzecie nagranie wykonałem w tym samym miejscu, czyli przy ruchliwej ulicy, w dość wietrzny dzień, ale do zarejestrowania głosu nie użyłem samego smartfona, lecz małych, bezprzewodowych słuchawek z nim sparowanych. Był to model Samsung Galaxy Buds 2 Pro, który spisał się moim zdaniem dość przeciętnie w tej sytuacji. Jak więc wypadł efekt przetwarzania? Czy głos jest bardziej wyraźny? Porównaj poniższe próbki i przekonaj się. W mojej opinii szumy i inne hałasy z tła zostały zredukowane niestety w niewielkim stopniu. Wciąż słychać ruch uliczny, a momentami również wiatr zakłócający pracę mikrofonu. Sam głos jednak został wyraźnie wzmocniony. Algorytmy AI sprawiły, że stał się głośniejszy, choć z drugiej strony moim zdaniem w niektórych momentach zaczyna brzmieć sztucznie, tak jakby był skompresowany albo stworzony przez jakiś słaby generator mowy.
Jak więc podsumować działanie funkcji Enhance Speech w Adobe Podcast? Osobiście uważam, iż powyższe przykłady sugerują, że w niezbyt wymagających sytuacjach, kiedy masz do czynienia z pogłosem, bo nagrywasz w niewytłumionym pomieszczeniu, to algorytmy sztucznej inteligencji w opisywanej usłudze spisują się po prostu dobrze. Faktycznie są w stanie wyeliminować odbite echo i poprawić brzmienie ludzkiej mowy, nawet takiej, która została zarejestrowana zwykłym mikrofonem wbudowanym w telefon. Jeśli jednak ktoś chciałby porządnie “wyczyścić” szumy ruchu ulicznego, zakłócenia od wiatru lub inne hałasy z tła, to w tej chwili nie może liczyć na dobre rezultaty. Póki co, AI od Adobe jeszcze z takimi sytuacjami nie potrafi sobie poradzić. Co najwyżej uzyskasz lekką redukcję niepożądanych dźwięków, ale sam głos nie będzie w pełni wyodrębniony, a jego jakość pozostawi sporo do życzenia. Na koniec polecam jeszcze obejrzenie krótkiego, oficjalnego wideo pokazującego możliwości Projektu Shasta (taka była wstępna nazwa), skupiając się głównie na fragmencie zaczynającym się po pierwszej minucie filmu. Tutaj możesz zobaczyć m.in. automatyczną transkrypcję głosu i możliwość jego edycji nie w formie plików dźwiękowych, lecz w postaci tekstu. Jeśli kiedyś doczekamy się pełnego wsparcia dla języka polskiego w Adobe Podcast, to dla niektórych osób może to być przydatne narzędzie.
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS