Internet nie przetrwa bez ludzi? Szkolenie AI danymi wygenerowanymi przez sztuczną inteligencję sprawia, że odpowiedzi to bełkot

„Załamanie modelu” to nowe zagrożenie dla rozwoju sztucznej inteligencji. Naukowcy ostrzegają, że trenowanie modeli AI wyłącznie na treściach generowanych przez inne AI może prowadzić do pogorszenia jakości generowanych treści, a nawet do generowania bełkotu. Problem ten może mieć poważne konsekwencje dla wielu platform internetowych, które wykorzystują dane z tych platform do szkolenia swoich najnowszych produktów.

tech

Krystian Łukasik28 lipca 2024

Źrodło fot. Solen Feyissa | Unsplash

Spis treści:

Czy to tylko teoria?
Jak temu zapobiec?
Internet bez ludzi?

Sztuczna inteligencja rozwija się w błyskawicznym tempie, a modele językowe, takie jak ChatGPT czy stający się coraz bardziej popularny Claude od firmy Anthropic, opierają się na ogromnych ilościach danych treningowych, aby generować sensowne i spójne odpowiedzi. Ale co się stanie, gdy te modele zaczną „karmić się” swoimi własnymi treściami, a nie oryginalnymi, ludzkimi tekstami?

Nowe badania sugerują, że trenowanie AI danymi wygenerowanymi przez inne modele może prowadzić do zjawiska zwanego „model collapse” (załamania). W skrócie, sztuczna inteligencja zaczyna zapominać, co to znaczy generować wartościowe treści, a jej odpowiedzi stają się bełkotem.

W najnowszym badaniu opublikowanym w czasopiśmie Nature naukowcy stworzyli własny model językowy, który początkowo karmili oryginalnym, ludzkim tekstem. Następnie stworzyli dziewięć kolejnych generacji modeli, z których każda z nich była szkolona na tekście wygenerowanym przez poprzedni. W rezultacie, ostatnia z nich produkowała bełkot, nie mający nic wspólnego z oryginalnym tekstem.

Według tego artykułu, proces załamania modelu ma dwie fazy:

Wczesne stadium: AI zaczyna zapominać o rzadziej występujących elementach w oryginalnym tekście. Skutkuje to tym, że najczęstsze odpowiedzi stają się jeszcze bardziej powszechne, co może prowadzić do zubożenia różnorodności poglądów i wyrażeń.
Późne stadium: AI jest już tak daleko od oryginalnych danych treningowych, że zapomina o kluczowych aspektach i generuje całkowicie bezsensowne treści. Na tym etapie, w jednym z eksperymentów, model językowy zaczął bezsensownie powtarzać frazę „black@tailed jackrabbits” zamiast generować sensowny tekst o architekturze kościelnej.

Naukowcy twierdzą, że to zjawisko jest nieuniknione dla dużych modeli szkolonych na własnych danych.

Czy to tylko teoria?

Wiele stron internetowych już teraz publikuje treści generowane przez AI. W wyścigu o tworzenie coraz to nowszych modeli, łatwo sobie wyobrazić, że te niskiej jakości teksty mogą przedostać się do zbiorów danych treningowych, potencjalnie obniżając jakość ich kolejnych generacji. Co więcej, problem ten nie ogranicza się tylko do zamkniętych platform. Portal społecznościowy Facebook oraz popularne forum dyskusyjne Reddit, również zmaga się z coraz większym zalewem treści generowanych przez AI, zarówno w komentarzach, jak i postach.

Co istotne w kontekście tych informacji, to to, że na początku 2024 roku Reddit podpisał umowę z Google, wartą podobno 60 milionów dolarów rocznie, na mocy której gigant z Mountain View uzyskał dostęp do danych API Reddita w celu szkolenia swoich modeli AI. To wskazuje na to, jak cenne są dane generowane przez użytkowników dla rozwoju sztucznej inteligencji oraz rodzi pytania o etykę i jakość tych danych, zwłaszcza w kontekście potencjalnego „zatrucia” modeli AI treściami niskiej jakości. Takie działania mogą prowadzić do dalszej degradacji ich zdolności generowania wartościowych i wiarygodnych treści.

Jak temu zapobiec?

Jednym z rozwiązań mogłoby być oznaczanie treści generowanych przez AI, tak aby można było je łatwo wykluczyć z danych treningowych. Google, Adobe i inne firmy technologiczne pracują nad takim rozwiązaniem w ramach projektu C2PA (The Coalition for Content Provenance and Authenticity). Jednak to rozwiązanie dotyczy jedynie generowanych treści w formie graficznej. Obecnie, znacznie trudniej jest oznaczyć lub zidentyfikować tekst wygenerowany przez AI. Bardziej realistyczne podejście może wymagać od twórców najnowszych modeli skrupulatnego sprawdzania materiałów pod kątem oznak manipulacji AI i ewentualnego płacenia renomowanym źródłom ludzkim za dostęp do ich wysokiej jakości danych.

Internet bez ludzi?

Bez zabezpieczeń w postaci ludzkich danych treningowych, Internet ryzykuje zalaniem falą bełkotu AI – ostrzega Mack DeGeurin, autor artykułu w Popular Science.

Oznacza to, że przyszłość sztucznej inteligencji może zależeć od dalszego zaangażowania człowieka. Bez nadzoru i kontroli, modele AI mogą popaść w samozagładę, generując treści, które nie mają żadnej wartości.

Czytaj więcej:Zadajesz nieodpowiednie pytania? Claude może powiadomić o tym władze

POWIĄZANE TEMATY: tech AI / sztuczna inteligencja

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

Jaki laptop do GTA 6? Sprawdzamy i odpowiadamy

Dostęp do streamingu staje się za drogi? Piractwo osiąga „skalę przemysłową”

Fanowska strona o Gwiezdnych wojnach narzędziem służb. CIA używało portalu do komunikacji ze szpiegami

Gdy nawet 10 MB robiło wrażenie. Cudowne nośniki danych, które pamięta każde dziecko lat 90

Garmin i Strava - jak połączyć i dlaczego moim zdaniem warto to zrobić