Obecny rozwój sztucznej inteligencji ma dwie strony medalu. Z jednej strony użytkownicy widzą skutki podejmowanych działań, gdyż mogą korzystać z coraz lepszych rozwiązań, które są stale ulepszane. Natomiast z drugiej strony to doskonalenie ma swoją cenę: jest nią łamanie praw autorskich. Aby wyszkolić modele AI, potrzebne są ogromne zbiory danych. Duże firmy kradną więc wymagane materiały w różny sposób. Okazuje się, że NVIDIA także robi to na potęgę.
W internecie ukazały się wewnętrzne rozmowy pracowników firmy NVIDIA. Okazało się, że przedsiębiorstwo codziennie pobiera ogromną liczbę filmów z różnych serwisów, które później są wykorzystywane do szkolenia nowego modelu AI (ten nie został jeszcze ujawniony).
Startup Runway, którego wspierała NVIDIA i Google, ukradł tysiące filmów z YouTube, aby szkolić swój generator wideo
NVIDIA króluje obecnie w segmencie sztucznej inteligencji, ponieważ oferuje akceleratory, które potrafią zapewnić odpowiednią wydajność w obsłudze modeli AI. Firma jednak sama także chce się rozwijać pod względem oprogramowania. Celem projektu o nazwie Cosmos jest stworzenie modelu AI, który będzie dosłownie wszechstronny i zasili platformę NVIDIA Omniverse, a przy okazji “różne aplikacje o krytycznym znaczeniu dla firmy”. W internecie pojawiły się wewnętrzne rozmowy, które były prowadzone na platformie Slack. Wynika z nich, że pracownicy mieli za zadanie pobierać ogromne ilości materiałów z platformy YouTube, choć w grę wchodził także Netflix oraz filmy należące do Discovery. Niektórzy pracownicy niższego szczebla wyrażali swoje obawy związane z łamaniem praw autorskich, jednak “góra” zapewniała ich, że mają stosowne pozwolenia i nie powinni się tym przejmować.
OpenAI wykorzystywało materiały wideo z YouTube do treningu modelu językowego stojącego za ChatGPT
Pobieranie filmów z platformy YouTube odbywało się np. za pomocą narzędzia yt-dlp, a w tym celu wykorzystywano maszyny wirtualne, co pozwalało łatwo ominąć blokadę platformy spowodowaną jednym adresem IP. Zbiory danych, z jakich korzystała NVIDIA, obejmowały HD-VG-130M, który w swojej bazie zawiera linki do 130 mln materiałów z platformy YouTube. W rozmowach osoby z wyższego szczebla dyskutowały o tym, aby być ostrożnym z publikacją rezultatów badań, ponieważ dzisiaj branża jest przeczulona pod względem sztucznej inteligencji, więc firma mogłaby mieć kłopoty. Z jednej strony spotykamy się więc z PR-em dużych firm, który ma jeden cel — postawić przedsiębiorstwo w jak najlepszym świetle. Jednak pamiętajmy, że pod tą maską ukrywają się prawdziwe intencje, a więc chęć jak największych zysków nie patrząc na konsekwencje i nie zważając na ewentualne “przeszkody”, takie jak prawa autorskie.
Źródło: 404 Media
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS