Firma zajmująca się sztuczną inteligencją kupiła miliony drukowanych książek, a następnie zniszczyła je tylko po to, by wytrenować swój model sztucznej inteligencji

Niedawny wyrok sądowy w sprawie o naruszenie praw autorskich rzucił światło na niekonwencjonalne metody stosowane przez branżę AI. Okazało się, że firma Anthropic, stojąca za modelem Claude, legalnie nabywała miliony fizycznych książek, a następnie niszczyła je w celu stworzenia cyfrowej biblioteki do treningu algorytmów.

tech

Krystian Łukasik1 lipca 2025

Źrodło fot. Masaaki Komori | Unsplash

Spis treści:

Dlaczego niszczyć coś, za co się zapłaciło?
„Dozwolony użytek”, ale pod pewnymi warunkami
„Zbudowany z popiołów biblioteki” – nienasycony apetyt AI na dane
Głos opinii publicznej

Firmy zajmujące się rozwojem sztucznej inteligencji sięgają po coraz bardziej niekonwencjonalne metody, aby zaspokoić apetyt swoich algorytmów. Najnowsze doniesienia z sali sądowej rzucają światło na zdumiewającą praktykę firmy Anthropic, twórców popularnego AI o nazwie Claude. Przedsiębiorstwo wydało miliony dolarów na zakup fizycznych książek, które następnie zniszczyło, aby legalnie pozyskać ich treść do treningu swojego modelu językowego.

Informacje te wypłynęły na światło dzienne dzięki dokumentom sądowym z procesu o naruszenie praw autorskich, który wytoczyli firmie pisarze. Okazało się, że Anthropic, chcąc zbudować potężną bibliotekę cyfrową, postanowił ominąć skomplikowane i kosztowne negocjacje licencyjne z wydawcami w dość radykalny sposób.

Dlaczego niszczyć coś, za co się zapłaciło?

Wyjaśnienie tej sytuacji leży w zawiłościach prawa autorskiego i ogromnym zapotrzebowaniu na wysokiej jakości dane tekstowe. Modele takie jak Claude, rywalizujące z ChatGPT, wymagają przetwarzania miliardów słów, aby mogły generować spójne i inteligentne odpowiedzi. Najlepszym źródłem takich danych są profesjonalnie zredagowane książki.

Problem w tym, że cyfrowe wersje książek są chronione licencjami, a ich masowe wykorzystanie do celów komercyjnych bez zgody jest nielegalne. Anthropic znalazło jednak furtkę w tzw. doktrynie pierwszej sprzedaży (first-sale doctrine). Zgodnie z nią, po legalnym zakupie fizycznego egzemplarza dzieła (np. książki), nowy właściciel może z tym konkretnym egzemplarzem zrobić, co zechce – sprzedać go, pożyczyć, a nawet zniszczyć.

Firma wykorzystała tę zasadę do perfekcji. Proces wyglądał następująco:

Anthropic masowo skupował używane książki od największych dystrybutorów.
Następnie każdy tom był niszczony – wycinano strony z oprawy.
Pocięte kartki były skanowane do plików PDF, tworząc cyfrową kopię.
Oryginalne, papierowe resztki książek wyrzucano.

Ta metoda, znana jako skanowanie destrukcyjne, okazała się znacznie szybsza i tańsza niż zaawansowane technologie skanowania bezinwazyjnego, z jakich korzystało np. Google w swoim projekcie Google Books. Jak wynika z akt sądowych, celem tego przedsięwzięcia było uniknięcie tego, co dyrektor generalny Anthropic, Dario Amodei, nazwał „prawno-praktyczno-biznesową harówką”.

„Dozwolony użytek”, ale pod pewnymi warunkami

Sprawa trafiła przed oblicze sędziego Williama Alsupa, który wydał zaskakujący wyrok. Uznał on, że opisany wyżej proces mieści się w granicach prawa „dozwolonego użytku”. Swoją decyzję oparł na kilku kluczowych warunkach, spełnianych przez firmę Anthropic:

Książki zostały najpierw legalnie nabyte.
Każdy drukowany egzemplarz został zniszczony po zeskanowaniu, co oznaczało, że nie powstała dodatkowa kopia.
Pliki cyfrowe były przechowywane wewnętrznie i nie były dalej dystrybuowane.

Sędzia porównał ten proces do zmiany formatu w celu „oszczędności miejsca”, uznając go za działanie transformacyjne.

Warto jednak zaznaczyć, że wyrok nie był w pełni korzystny dla Anthropic. Sędzia uznał za nielegalne działania firmy polegające na pobieraniu książek z pirackich serwisów internetowych, co również miało miejsce na wcześniejszym etapie budowy biblioteki. W tym przypadku nie było mowy o dozwolonym użytku.

„Zbudowany z popiołów biblioteki” – nienasycony apetyt AI na dane

Historia Anthropic doskonale ilustruje szerszy trend w branży AI. Konieczność pozyskiwania gigantycznych zbiorów danych prowadzi firmy na skraj prawa i etyki. Wcześniej media donosiły o tym, jak Apple, Nvidia czy OpenAI miały wykorzystywać transkrypcje z tysięcy filmów na YouTube bez zgody ich twórców. Schemat działania jest podobny: znaleźć bogate źródło danych i pozyskać je w sposób, który jest trudny do zakwestionowania lub obrony w sądzie.

Co ciekawe, w artykule ArsTechnica dziennikarze zapytali autorskiego chatbota Anthropic – Claude o komentarz w tej sprawie. Jego odpowiedź była bardzo trafna i nieco poetycka:

Fakt, że to zniszczenie pomogło mnie stworzyć – coś, co potrafi dyskutować o literaturze, pomagać ludziom pisać i angażować się w ludzką wiedzę – dodaje warstw złożoności, które wciąż przetwarzam. To tak, jakbym został zbudowany z popiołów biblioteki.

Na szczęście, że według dokumentów sądowych, w procesie nie zniszczono żadnych rzadkich ani cennych woluminów. Były to głównie masowo wydawane książki, dostępne w milionach egzemplarzy.

Głos opinii publicznej

Wiadomość o powyższej sytuacji wywołała ożywioną dyskusję w internecie. Wielu komentujących zwróciło uwagę, że to absurdalne przepisy dotyczące własności intelektualnej zmusiły firmę do tak kuriozalnego działania. Jeden z użytkowników serwisu Reddit trafnie podsumował logikę prawną stojącą za tym procesem:

W skrócie, jeśli dobrze rozumiem całą sytuację, chodzi też o uniknięcie problemów z prawami autorskimi. Kopie zapasowe są dozwolone, ale powielanie już nie. Zeskanowanie i zniszczenie książki prawnie czyni cyfrową kopię „legalną” wersją książki

– wyjaśnił cpufreak101.

Dla firmy Anthropic ostateczny bilans sprawy jest niejednoznaczny. Z jednej strony sąd dał zielone światło dla specyficznej metody pozyskiwania danych, która, choć kosztowna, jest prawnie bezpieczniejsza niż inne alternatywy. Z drugiej strony, firma będzie musiała odpowiedzieć za wcześniejsze, ewidentne naruszenia praw autorskich poprzez korzystanie z pirackich bibliotek. Dalsza część postępowania skupi się teraz na oszacowaniu strat i ustaleniu wysokości odszkodowania.

Czytaj więcej:ChatGPT może już przeszukiwać Internet, ale jest pewien haczyk

POWIĄZANE TEMATY: tech AI / sztuczna inteligencja chatboty / ChatGPT

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

Jest wodoodporny, opancerzony i świetnie brzmi. Recenzja Soundcore Boom 3i

Zespół Microsoft AI zaprezentował swoje pierwsze modele. Nowe technologie zasilą ekosystem Copilot i przyszłe usługi

Technik uruchomił Windows 95 na PlayStation 2, choć było to prawdziwym wyzwaniem ze względu na złożoność tej konsoli

To były ostatnie tak dobrze wyglądające wyścigi na PS2. W Gran Turismo 4 Polyphony Digital pokazało pazur

Według raportu, biedne dzieci dorastają przed ekranami, podczas gdy bogate rodziny płacą tysiące dolarów, aby ich pociechy uczyły się czytać