A A+ A++

Stojące za usługą ChatGPT modele językowe GPT-3.5 i GPT-4 wymagały olbrzymiej ilości danych, żeby osiągnąć obecny poziom zaawansowania. Trening opierał się na treściach z różnych źródeł, ale niektóre z nich mogą wydawać się nieco kontrowersyjne i niezbyt zgodne z poszanowaniem praw autorskich. Jednym z takich przypadków są materiały wideo z YouTube. OpenAI przygotowało w tym celu specjalne oprogramowanie, a Google miało nie sprzeciwiać się takim praktykom.

OpenAI wykorzystywało aplikację konwertującą mowę na tekst, w celu pozyskania z serwisu YouTube danych służących do treningu sztucznej inteligencji. Źródła donoszą, że podobne praktyki stosowała też firma Google.

OpenAI wykorzystywało materiały wideo z YouTube do treningu modelu językowego stojącego za ChatGPT [1]

Model GPT-4 od OpenAI został zdetronizowany. Użytkownicy wybrali następnego króla, którym jest nowość od Anthropic

Kontrowersje dotyczące źródeł, z których pochodzą dane wykorzystywane do treningu sztucznej inteligencji, pojawiają się nie po raz pierwszy. Przypadek YouTube jest jednak o tyle istotny, że serwis cieszy się olbrzymią popularnością i wielu użytkowników przesyła tam także swoje prywatne materiały wideo. Jak donosi The New York Times, w celu przygotowania danych z tego serwisu, OpenAI stworzyło oprogramowanie Whisper, które służy do konwertowania mowy na tekst. Narzędzie miało dobrze nadawać się do przygotowania tekstowych “wersji” materiałów z YouTube, które następnie można było wykorzystać do treningu modelu GPT-4.

OpenAI wykorzystywało materiały wideo z YouTube do treningu modelu językowego stojącego za ChatGPT [2]

Sora – największa rewolucja w świecie AI od czasu ChatGPT. Powstał fotorealistyczny generator wideo z opisów tekstowych

Pikanterii sprawie dodaje fakt, że OpenAI ponoć w pełni zdawało sobie sprawę z tego, że wykorzystanie danych z YouTube jest bardzo kontrowersyjnym posunięciem, ale i tak się na to zdecydowało. Źródła donoszą, że w selekcję odpowiednich materiałów wideo zaangażowany był bezpośrednio nawet Greg Brockman ze ścisłego kierownictwa firmy. Google prawdopodobnie nie sprzeciwiało się takim praktykom, bo firma z Mountain View sama wykorzystywała materiały z YouTube do treningu własnych modeli językowych. Takie działania mogą być w praktyce naruszeniem praw autorskich twórców publikujących swoje dzieła w tym serwisie.

OpenAI wykorzystywało materiały wideo z YouTube do treningu modelu językowego stojącego za ChatGPT [3]

The New York Times pozywa Microsoft i OpenAI. Powodem jest naruszenie praw autorskich przez ChatGPT i Microsoft Copilot

O sprawę został zapytany także dyrektor generalny YouTube – Neal Mohan. Stwierdził, że widział doniesienia, które mogłyby wskazywać, że takie praktyki były lub nie były stosowane (jakkolwiek dziwnie takie stwierdzenie by nie zabrzmiało). Nie posiada jednak osobiście żadnych konkretnych informacji na ten temat. Samo Google zaś twierdzi, że wykorzystuje część materiałów wideo z YouTube do treningu sztucznej inteligencji, ale odbywa się to w porozumieniu z ich twórcami. Co ciekawe, także Meta ma pozyskiwać dane objęte prawami autorskimi do treningu AI. Również w tym przypadku budzi to wątpliwości natury prawnej. Warto przypomnieć, że The New York Times złożył niedawno pozew przeciwko OpenAI i Microsoftowi, z powodu domniemanego wykorzystywania treści z serwisu NYT w nielegalny sposób.

Źródło: The New York Times, TechSpot

Oryginalne źródło: ZOBACZ
0
Udostępnij na fb
Udostępnij na twitter
Udostępnij na WhatsApp

Oryginalne źródło ZOBACZ

Subskrybuj
Powiadom o

Dodaj kanał RSS

Musisz być zalogowanym aby zaproponować nowy kanal RSS

Dodaj kanał RSS
0 komentarzy
Informacje zwrotne w treści
Wyświetl wszystkie komentarze
Poprzedni artykułRed Bull Racing ma czas