Apple miało trenować swoje AI na materiałach z YouTube'a bez zgody twórców, poszkodowani są również polscy youtuberzy

Apple oraz inne firmy technologiczne, trenowały własne AI przy użyciu filmów opublikowanych na portalu YouTube. Rzecz jasna nie informowały ich twórców, nie kłopocząc się uzyskaniem zgody.

tech

Marek Pluta17 lipca 2024

Źrodło fot. Unsplash | Igor Omilaev

Spis treści:

Koncerny użyły twórczości youtuberów
Dane miały służyć programistom i naukowcom
Autorzy chcą wynagrodzenia za wykorzystanie ich filmów
Coraz więcej przypadków użycia cudzej twórczości

Jak informuje portal Proof News, część koncernów technologicznych wykorzystywała filmy popularnych youtuberów, do szkolenia swoich sztucznych inteligencji. Problem w tym, że działania te prowadzone były bez pytania o zgodę twórców publikowanych materiałów, którzy nawet nie mieli świadomości do czego używane były ich dzieła.

Koncerny użyły twórczości youtuberów

Aby sztuczne inteligencje mogły działać zgodnie ze swoim przeznaczeniem, muszą wcześniej zostać odpowiednio przeszkolone. Jest to proces żmudny i wymagający olbrzymiej ilości danych, najczęściej bazujących na czyjejś twórczości, których pozyskanie wcale nie jest łatwe. Ich autorzy nie są bowiem skłonni udostępniać własne dzieła do takich zadań, więc firmy technologiczne często nie proszą ich o taką zgodę, lecz biorą co chcą, licząc na to, że autorzy nie będą chcieli dochodzić swoich praw, walcząc z gigantami.

Takie wykorzystywanie czyjejś twórczości do szkolenia AI, prędzej czy później, wychodzi jednak na jaw i taką właśnie sytuację opisuje portal Wired. Możemy tam przeczytać o wynikach śledztwa przeprowadzonego przez Proof News, które ujawniło, iż niektóre z największych firm, zajmujących się rozwojem sztucznej inteligencji, wykorzystywało do jej szkolenia materiały z tysięcy filmów na YouTube. Koncerny zrobiły to pomimo obowiązujących na YT zasad, które zabraniają zbierania opublikowanych tam treści bez pozwolenia.

Dochodzenie wykazało, że chodzi o 173 536 filmy, pochodzące z ponad 48 000 kanałów, które wykorzystywały takie firmy, jak Anthropic, Nvidia, Apple i Salesforce. Wspomniane treści zostały pobrane z YouTube przez organizację non-profit o nazwie EleutherAI, która zajmuje się pomaganiem programistom w szkoleniu modelu AI.

Dane miały służyć programistom i naukowcom

Wprawdzie ze zbioru danych rzeczywiście korzystali naukowcy oraz programiści, jednak miało do nich dostęp także kilku gigantów technologicznych. Z dokumentów wynika, że zestaw danych o nazwie „Napisy YouTube”, zawierający transkrypcje filmów z kanałów edukacyjnych i internetowych, użyło m.in. Apple, które zastosowało je do szkolenia wypuszczonego kilka miesięcy temu modelu językowego OpenELM.

Z publikacji wynika, że Bloomberg i Databricks również szkoliły własne modele AI, używając zebranych danych. Podobnie jak firma Anthropic, wiodący twórca AI, który skupia się na „bezpieczeństwie sztucznej inteligencji” i na swoje działania otrzymał niedawno od Amazonu dofinansowanie w wysokości 4 mld dolarów.

Proof News ustaliło również, że giganci branży technologicznej wykorzystywali również twórczość największych gwiazd YouTube, takich jak MrBeast (289 mln subskrybentów), PewDiePie (111 mln) oraz Jacksepticeye (niemal 31 mln). Filmów było jednak tak dużo, że praktycznie każdy mógł zostać w ten sposób poszkodowany. Na szczęście portal przygotował specjalne narzędzie, pozwalające sprawdzić które filmy posłużyły do stworzenia zbioru danych. Znajdziemy w nim również twórczość polskich kanałów, m.in. Arhn.eu, którego pięć materiałów użyto do szkolenia AI. Nie można jednak wykluczyć, że jest ich znacznie więcej, dlatego sugerujemy skorzystanie z wyszukiwarki i sprawdzenie, czy nie ma tam również Waszych filmów.

Źródło: Proof News

Autorzy chcą wynagrodzenia za wykorzystanie ich filmów

Wielu twórców, których treści zostały wykorzystywane bez ich zgody, uważa działania dużych koncernów za kradzież. Niektórzy słusznie argumentują, że skoro firmy zajmujące się AI otrzymują wynagrodzenie za udostępnianie swojej technologii, to twórcy materiałów wykorzystanych do jej szkolenia, również powinni dostać za to pieniądze. Tak uważa m.in. David Pakman, gospodarz politycznego kanału „The David Pakman Show”, który podkreśla, że niektóre firmy medialne podpisały ostatnio umowy, w ramach których mają otrzymywać wynagrodzenie za wykorzystanie ich pracy do szkolenia sztucznej inteligencji.

Przedstawiciele firmy EleutherAI, odpowiedzialnej za zbiór danych, stworzonych na podstawie filmów z YouTube, nie odpowiedzieli na prośbę o komentarz dotyczący wyników śledztwa Proof News. Sprawy nie skomentowały również Nvidia, Apple, Databrick oraz Bloomberg.

Organizacja odpowiedzialna za stworzenie zbioru danych wykorzystała nie tylko materiały z portalu Google, ale również Parlamentu Europejskiego, angielskiej Wikipedii i zbiór e-maili pracowników Enron Corporation, które zostały opublikowane w ramach federalnego śledztwa w sprawie firmy.

Coraz więcej przypadków użycia cudzej twórczości

Nie jest to bynajmniej jedyny przykład wykorzystywania filmów z YouTube do szkolenia AI. Kilka miesięcy temu The New York Times donosił, że Google, do którego należy wspomniany portal, używał opublikowanych tam materiałów do szkolenia swoich modeli sztucznej inteligencji. W odpowiedzi na opublikowany artykuł, rzecznik koncernu oświadczył, że odbyło się to na mocy umów z twórcami. Dochodzenie dziennikarzy wykazało jednak, że filmy z YouTube bez zezwolenia, wykorzystywała również firma OpenAI. Jej przedstawiciele nie potwierdzili jednak, ani nie zaprzeczyli ustaleniom mediów.

Takie sytuacje mogą jednak w przyszłości się powtarzać, gdyż według ekspertów, napisy na YouTube są prawdziwą kopalnią złota dla firm zajmujących się rozwojem AI. Mogą bowiem pomóc w szkoleniu modeli w zakresie odtwarzania sposobu, w jaki ludzie mówią i rozmawiają.

Nie tylko napisy na YouTube są używane do trenowania sztucznej inteligencji. Współpracownik Proof News, Alex Reisner, uzyskał kopię Books3, innego zbioru danych do szkolenia modeli AI i ustalił, że zostało w nim wykorzystanych bez pozwolenia ponad 180 tys. książek wielu znanych autorów. Po nagłośnieniu sprawy część pisarzy pozwało firmy zajmujące się sztuczną inteligencją za nieuprawnione wykorzystanie ich dzieł i rzekome naruszenia praw autorskich. Natomiast platforma hostująca Books3 usunęła zbiór danych.

Niestety, w miarę rozwoju AI, takich sytuacji będzie znacznie więcej i z pewnością nie raz usłyszymy o podobnych przypadkach. Modele sztucznej inteligencji trzeba bowiem szkolić, by nadawały się do swoich zadań. Tymczasem najłatwiej jest to robić, wykorzystując dane twórców, którzy często nie mają nawet świadomości, że ich dzieła są bezprawnie używane.

Czytaj więcej:Brak ID dzwoniącego na iPhone - co oznacza i jak zablokować takie połączenia?

POWIĄZANE TEMATY: tech Apple Nvidia YouTube AI / sztuczna inteligencja

Marek Pluta

Od lat związany z serwisami internetowymi zajmującymi się tematyką gier oraz nowoczesnych technologii. Przez wiele lat współpracował m.in. z portalami Onet i Wirtualna Polska, a także innymi serwisami oraz czasopismami, gdzie zajmował się m.in. pisaniem newsów i recenzowaniem popularnych gier, jak również testowaniem najnowszych akcesoriów komputerowych. Wolne chwile lubi spędzać na rowerze, zaś podczas złej pogody rozrywkę zapewnia mu dobra książka z gatunku sci-fi. Do jego ulubionych gatunków należą strzelanki oraz produkcje MMO.

Jest wodoodporny, opancerzony i świetnie brzmi. Recenzja Soundcore Boom 3i

Zespół Microsoft AI zaprezentował swoje pierwsze modele. Nowe technologie zasilą ekosystem Copilot i przyszłe usługi

Technik uruchomił Windows 95 na PlayStation 2, choć było to prawdziwym wyzwaniem ze względu na złożoność tej konsoli

To były ostatnie tak dobrze wyglądające wyścigi na PS2. W Gran Turismo 4 Polyphony Digital pokazało pazur

Według raportu, biedne dzieci dorastają przed ekranami, podczas gdy bogate rodziny płacą tysiące dolarów, aby ich pociechy uczyły się czytać