Apple miało trenować swoje AI na materiałach z YouTube'a bez zgody twórców, poszkodowani są również polscy youtuberzy

Apple oraz inne firmy technologiczne, trenowały własne AI przy użyciu filmów opublikowanych na portalu YouTube. Rzecz jasna nie informowały ich twórców, nie kłopocząc się uzyskaniem zgody.

tech
Marek Pluta17 lipca 2024
1
Źrodło fot. Unsplash | Igor Omilaev
i

Jak informuje portal Proof News, część koncernów technologicznych wykorzystywała filmy popularnych youtuberów, do szkolenia swoich sztucznych inteligencji. Problem w tym, że działania te prowadzone były bez pytania o zgodę twórców publikowanych materiałów, którzy nawet nie mieli świadomości do czego używane były ich dzieła.

Koncerny użyły twórczości youtuberów

Aby sztuczne inteligencje mogły działać zgodnie ze swoim przeznaczeniem, muszą wcześniej zostać odpowiednio przeszkolone. Jest to proces żmudny i wymagający olbrzymiej ilości danych, najczęściej bazujących na czyjejś twórczości, których pozyskanie wcale nie jest łatwe. Ich autorzy nie są bowiem skłonni udostępniać własne dzieła do takich zadań, więc firmy technologiczne często nie proszą ich o taką zgodę, lecz biorą co chcą, licząc na to, że autorzy nie będą chcieli dochodzić swoich praw, walcząc z gigantami.

Takie wykorzystywanie czyjejś twórczości do szkolenia AI, prędzej czy później, wychodzi jednak na jaw i taką właśnie sytuację opisuje portal Wired. Możemy tam przeczytać o wynikach śledztwa przeprowadzonego przez Proof News, które ujawniło, iż niektóre z największych firm, zajmujących się rozwojem sztucznej inteligencji, wykorzystywało do jej szkolenia materiały z tysięcy filmów na YouTube. Koncerny zrobiły to pomimo obowiązujących na YT zasad, które zabraniają zbierania opublikowanych tam treści bez pozwolenia.

Dochodzenie wykazało, że chodzi o 173 536 filmy, pochodzące z ponad 48 000 kanałów, które wykorzystywały takie firmy, jak Anthropic, Nvidia, Apple i Salesforce. Wspomniane treści zostały pobrane z YouTube przez organizację non-profit o nazwie EleutherAI, która zajmuje się pomaganiem programistom w szkoleniu modelu AI.

Dane miały służyć programistom i naukowcom

Wprawdzie ze zbioru danych rzeczywiście korzystali naukowcy oraz programiści, jednak miało do nich dostęp także kilku gigantów technologicznych. Z dokumentów wynika, że zestaw danych o nazwie „Napisy YouTube”, zawierający transkrypcje filmów z kanałów edukacyjnych i internetowych, użyło m.in. Apple, które zastosowało je do szkolenia wypuszczonego kilka miesięcy temu modelu językowego OpenELM.

Z publikacji wynika, że Bloomberg i Databricks również szkoliły własne modele AI, używając zebranych danych. Podobnie jak firma Anthropic, wiodący twórca AI, który skupia się na „bezpieczeństwie sztucznej inteligencji” i na swoje działania otrzymał niedawno od Amazonu dofinansowanie w wysokości 4 mld dolarów.

Proof News ustaliło również, że giganci branży technologicznej wykorzystywali również twórczość największych gwiazd YouTube, takich jak MrBeast (289 mln subskrybentów), PewDiePie (111 mln) oraz Jacksepticeye (niemal 31 mln). Filmów było jednak tak dużo, że praktycznie każdy mógł zostać w ten sposób poszkodowany. Na szczęście portal przygotował specjalne narzędzie, pozwalające sprawdzić które filmy posłużyły do stworzenia zbioru danych. Znajdziemy w nim również twórczość polskich kanałów, m.in. Arhn.eu, którego pięć materiałów użyto do szkolenia AI. Nie można jednak wykluczyć, że jest ich znacznie więcej, dlatego sugerujemy skorzystanie z wyszukiwarki i sprawdzenie, czy nie ma tam również Waszych filmów.

Źródło: Proof News - Apple miało trenować swoje AI na materiałach z YouTube'a bez zgody twórców, poszkodowani są również polscy youtuberzy - wiadomość - 2024-07-17
Źródło: Proof News

Autorzy chcą wynagrodzenia za wykorzystanie ich filmów

Wielu twórców, których treści zostały wykorzystywane bez ich zgody, uważa działania dużych koncernów za kradzież. Niektórzy słusznie argumentują, że skoro firmy zajmujące się AI otrzymują wynagrodzenie za udostępnianie swojej technologii, to twórcy materiałów wykorzystanych do jej szkolenia, również powinni dostać za to pieniądze. Tak uważa m.in. David Pakman, gospodarz politycznego kanału „The David Pakman Show”, który podkreśla, że niektóre firmy medialne podpisały ostatnio umowy, w ramach których mają otrzymywać wynagrodzenie za wykorzystanie ich pracy do szkolenia sztucznej inteligencji.

Przedstawiciele firmy EleutherAI, odpowiedzialnej za zbiór danych, stworzonych na podstawie filmów z YouTube, nie odpowiedzieli na prośbę o komentarz dotyczący wyników śledztwa Proof News. Sprawy nie skomentowały również Nvidia, Apple, Databrick oraz Bloomberg.

Organizacja odpowiedzialna za stworzenie zbioru danych wykorzystała nie tylko materiały z portalu Google, ale również Parlamentu Europejskiego, angielskiej Wikipedii i zbiór e-maili pracowników Enron Corporation, które zostały opublikowane w ramach federalnego śledztwa w sprawie firmy.

Coraz więcej przypadków użycia cudzej twórczości

Nie jest to bynajmniej jedyny przykład wykorzystywania filmów z YouTube do szkolenia AI. Kilka miesięcy temu The New York Times donosił, że Google, do którego należy wspomniany portal, używał opublikowanych tam materiałów do szkolenia swoich modeli sztucznej inteligencji. W odpowiedzi na opublikowany artykuł, rzecznik koncernu oświadczył, że odbyło się to na mocy umów z twórcami. Dochodzenie dziennikarzy wykazało jednak, że filmy z YouTube bez zezwolenia, wykorzystywała również firma OpenAI. Jej przedstawiciele nie potwierdzili jednak, ani nie zaprzeczyli ustaleniom mediów.

Takie sytuacje mogą jednak w przyszłości się powtarzać, gdyż według ekspertów, napisy na YouTube są prawdziwą kopalnią złota dla firm zajmujących się rozwojem AI. Mogą bowiem pomóc w szkoleniu modeli w zakresie odtwarzania sposobu, w jaki ludzie mówią i rozmawiają.

Nie tylko napisy na YouTube są używane do trenowania sztucznej inteligencji. Współpracownik Proof News, Alex Reisner, uzyskał kopię Books3, innego zbioru danych do szkolenia modeli AI i ustalił, że zostało w nim wykorzystanych bez pozwolenia ponad 180 tys. książek wielu znanych autorów. Po nagłośnieniu sprawy część pisarzy pozwało firmy zajmujące się sztuczną inteligencją za nieuprawnione wykorzystanie ich dzieł i rzekome naruszenia praw autorskich. Natomiast platforma hostująca Books3 usunęła zbiór danych.

Niestety, w miarę rozwoju AI, takich sytuacji będzie znacznie więcej i z pewnością nie raz usłyszymy o podobnych przypadkach. Modele sztucznej inteligencji trzeba bowiem szkolić, by nadawały się do swoich zadań. Tymczasem najłatwiej jest to robić, wykorzystując dane twórców, którzy często nie mają nawet świadomości, że ich dzieła są bezprawnie używane.

Marek Pluta

Marek Pluta

Od lat związany z serwisami internetowymi zajmującymi się tematyką gier oraz nowoczesnych technologii. Przez wiele lat współpracował m.in. z portalami Onet i Wirtualna Polska, a także innymi serwisami oraz czasopismami, gdzie zajmował się m.in. pisaniem newsów i recenzowaniem popularnych gier, jak również testowaniem najnowszych akcesoriów komputerowych. Wolne chwile lubi spędzać na rowerze, zaś podczas złej pogody rozrywkę zapewnia mu dobra książka z gatunku sci-fi. Do jego ulubionych gatunków należą strzelanki oraz produkcje MMO.

AI w służbie modderów. Mieszkańcy Stardew Valley pełni życia i prawdziwi towarzysze z głębią w Skyrimie

AI w służbie modderów. Mieszkańcy Stardew Valley pełni życia i prawdziwi towarzysze z głębią w Skyrimie

Dragon Age: Veilguard za darmo w GeForce Now Ultimate? Jeśli Twój PC nie domaga, to niezła oferta

Dragon Age: Veilguard za darmo w GeForce Now Ultimate? Jeśli Twój PC nie domaga, to niezła oferta

938 gigabitów na sekundę; sieć 6G jest aż 900 razy szybsza od 5G w testach

938 gigabitów na sekundę; sieć 6G jest aż 900 razy szybsza od 5G w testach

Ekspert sprawdził wszystkie popularne handheldy do gier i uważa, że wciąż brakuje bezpośredniego konkurenta Steam Decka

Ekspert sprawdził wszystkie popularne handheldy do gier i uważa, że wciąż brakuje bezpośredniego konkurenta Steam Decka

Chińczyk stał się milionerem dzięki kryptowalutom i rządzi krajem w Europie, który nawet nie istnieje

Chińczyk stał się milionerem dzięki kryptowalutom i rządzi krajem w Europie, który nawet nie istnieje