Nowa technologia OpenAI może sklonować głos dowolnej osoby; będzie dostępna w atrakcyjnej cenie

Open AI twierdzi, że jej technologia Voice Engine jest w stanie sklonować dowolny głos, wykorzystując jego krótką próbkę. Wkrótce będzie dostępna dla każdego, w bardzo przystępnej cenie.

tech
Marek Pluta2 kwietnia 2024
Źrodło fot. Unsplash | Andrew Neel
i

Sztuczna inteligencja niesie ze sobą wiele korzyści, ale również zagrożeń. Jedną z nich jest dużo łatwiejsze tworzenie treści deepfake, niezwykle trudnych do odróżnienia od prawdziwych, które różne grupy mogłyby wykorzystać w celu dezinformacji. Przykładem takich zagrożeń jest technologia Voice Engine, opracowana przez OpenAI, która pozwala sklonować głos dowolnej osoby. Jest w tym naprawdę dobra.

Klonowanie głosu stało się możliwe

Voice Engine powstało w 2022 roku, a wstępna wersja tej technologii została wykorzystana w ChatGPT, gdzie służy jako funkcja zamiany tekstu na mowę. Firma twierdzi na swoim blogu, że wystarczy jedynie 15 sekundowa próbka głosu danej osoby, aby sklonować jej głos, który będzie praktycznie nie do odróżnienia od prawdziwego.

Technologia jest tak potężna, że na razie nie udostępniono jej na szeroką skalę, ze względu na ryzyko jakie może stanowić w niewłaściwych rękach. Takie rozwiązanie może bowiem ułatwić robotę przestępcom, zwiększając skuteczność tzw. oszustw na wnuczka, czy też szkodząc politykom lub aktorom, których zmanipulowane wypowiedzi mogłyby pojawić się w mediach.

Oczywiście nie oznacza to, że Voice Engine służy tylko do oszustw, gdyż może także przynieść wiele korzyści. Na blogu OpenAI znajdziemy przykłady rzeczywistych zastosowań nowej technologii, udostępnionej kilku partnerom, którzy wbudowali ją we własne aplikacje oraz produkty.

Jednym z nich jest firma Age of Learning, zajmująca się technologią edukacyjną, która używa Voice Engine do generowania scenariuszy lektorskich. Innym przykładem zastosowań jest oparta na AI aplikacja HeyGen, służąca do wizualnego opowiadania historii, która współpracuje z klientami korporacyjnymi, w celu tworzenia niestandardowych, przypominających ludzi awatarów do różnych treści, od marketingu produktów, po prezentacje sprzedaży. Aplikacja wykorzystuje technologię do tłumaczenia wideo na różne języki, przy zachowaniu akcentu i głosu lektora. Na przykład wygenerowanie języka angielskiego na podstawie próbki audio od osoby mówiącej po francusku, spowoduje utworzenie mowy z francuskim akcentem.

Technologia może przynieść wiele korzyści

Technologię wykorzystuje również Livox, alternatywna aplikacja do komunikacji oparta na sztucznej inteligencji, która umożliwia porozumiewanie się osobom niepełnosprawnym. Dzięki Voice Engine, może zaoferować ludziom niewerbalne, unikalne i naturalne głosy w wielu językach. Użytkownicy mogą wybrać mowę, która ich najlepiej reprezentuje, a w przypadku osób wielojęzycznych, pozwala zachować spójny głos w każdym języku mówionym.

Z kolei badacze z Instytutu Neurosciences Norman Prince na Rhode Island, wykorzystują technologię by pomagać w odzyskaniu głosu, pacjentom cierpiącym na nagłe lub zwyrodnieniowe zaburzenia mowy. Uruchomili niedawno pilotażowy program, który dzięki Voice Engine, pomaga osobom z zaburzeniami mowy, wywołanymi przez różnego rodzaju choroby. Przykładem wykorzystania tej technologii jest młoda pacjentka, która utraciła płynną mowę z powodu naczyniowego guza mózgu. Naukowcom udało się ją przywrócić, wykorzystując w tym celu 15 sekundowe nagranie z prezentacji jej szkolnego projektu.

OpenAI zdaje sobie sprawę z tego, że technologia może mieć wiele zastosowań, przy czym nie zawsze będzie wykorzystywana we właściwych celach. Podjęto więc szereg działań, które mają temu zapobiec, a jednym z nich jest wykorzystanie znaków wodnych, pozwalających prześledzić pochodzenie wygenerowanego dźwięku. Poza tym warunki korzystania z Voice Engine, wymagają od partnerów uzyskania zgody osoby, której głos zostanie wykorzystany podczas realizacji projektów. Firma nie pozwala też programistom na tworzenie sposobów, umożliwiających indywidualnym użytkownikom tworzenie własnych głosów.

Warto dodać, że Voice Engine nie jest jedynym narzędziem dostępnym na rynku, które oferuje takie możliwości. Podobną funkcjonalność ma technologia firmy ElevenLabs, która również potrafi wiernie sklonować głos, aczkolwiek potrzebuje do tego kilkuminutowej próbki.

Voice Engine jest jednak zdecydowanie szybsze, a ponadto może pokonać rywali bardziej korzystniejszą ceną. Serwis TechCrunch odkrył, że firma zamierza udostępniać swoją technologię w cenie 15 dolarów za milion znaków, co daje około 162 500 słów. To bardzo przystępna cena, która pozwala to już stworzyć własnego audiobooka. W planach jest także wersja HD nowej usługi, która ma kosztować dwukrotnie więcej. Na razie nie wiadomo jednak, co klient otrzyma w zamian.

Marek Pluta

Marek Pluta

Od lat związany z serwisami internetowymi zajmującymi się tematyką gier oraz nowoczesnych technologii. Przez wiele lat współpracował m.in. z portalami Onet i Wirtualna Polska, a także innymi serwisami oraz czasopismami, gdzie zajmował się m.in. pisaniem newsów i recenzowaniem popularnych gier, jak również testowaniem najnowszych akcesoriów komputerowych. Wolne chwile lubi spędzać na rowerze, zaś podczas złej pogody rozrywkę zapewnia mu dobra książka z gatunku sci-fi. Do jego ulubionych gatunków należą strzelanki oraz produkcje MMO.

Twój smartfon może działać znacznie szybciej, gdy wyłączysz tę ukrytą opcję

Twój smartfon może działać znacznie szybciej, gdy wyłączysz tę ukrytą opcję

Ponad 4 GHz w smartfonie, nowy Snapdragon 8 Gen 4 zapowiada ciekawie

Ponad 4 GHz w smartfonie, nowy Snapdragon 8 Gen 4 zapowiada ciekawie

Tłumacze mogą bać się o pracę, ChatGPT-4o szokuje jakością

Tłumacze mogą bać się o pracę, ChatGPT-4o szokuje jakością

Nintendo Switch 2 bez tajemnic. Z przecieków wiemy już prawie wszystko

Nintendo Switch 2 bez tajemnic. Z przecieków wiemy już prawie wszystko

Recenzja serii realme 12. Daliśmy trzy telefony naszym trzem ekspertom, ciężko było znaleźć faworyta

Recenzja serii realme 12. Daliśmy trzy telefony naszym trzem ekspertom, ciężko było znaleźć faworyta