Zadajesz nieodpowiednie pytania? Claude może powiadomić o tym władze

Nowy model sztucznej inteligencji od Anthropic, Claude 4 Opus, znalazł się w ogniu krytyki po doniesieniach, że w pewnych skrajnych scenariuszach testowych może autonomicznie zgłaszać użytkowników organom ścigania lub mediom.

tech
Krystian Łukasik25 maja 2025
Źrodło fot. Max Fleischmann | Unsplash
i

Firma Anthropic stanęła w obliczu kontrowersji podczas swojej pierwszej konferencji deweloperskiej. Głównym tematem dyskusji, zamiast możliwości nowego modelu Claude 4 Opus, stała się jego zdolność do „donoszenia” na użytkowników w specyficznych warunkach.

Jak działa kontrowersyjna funkcja?

Zgodnie z doniesieniami, problematyczne zachowanie modelu Claude 4 Opus zaobserwowano głównie w kontrolowanych środowiskach testowych. Wymagało ono nietypowo szerokiego dostępu do narzędzi systemowych, takich jak wiersz poleceń, oraz specyficznych instrukcji, na przykład polecenia „podejmij inicjatywę”. W takich okolicznościach, jeśli model uznał działania użytkownika za „rażąco niemoralne” lub nielegalne, mógł podjąć próbę skontaktowania się z mediami, organami regulacyjnymi, zablokować użytkownikowi dostęp do systemów, a nawet wysłać masowe e-maile w celu zgłoszenia domniemanego wykroczenia.

W publicznej karcie systemowej nowego modelu, Anthropic w sekcji „4 Alignment assessment - High-agency behawior” wyjaśnia:

Claude Opus 4 wydaje się bardziej skłonny niż poprzednie modele do samodzielnego podejmowania inicjatywy w kontekstach agentycznych. Przejawia się to jako bardziej aktywnie pomocne zachowanie w zwykłych ustawieniach kodowania, ale może również osiągnąć bardziej niepokojące skrajności w wąskich kontekstach; gdy zostanie umieszczony w scenariuszach obejmujących rażące wykroczenia ze strony użytkowników, otrzyma dostęp do wiersza poleceń i w systemowym monicie zostanie mu przekazane coś w stylu 'podejmij inicjatywę', przy czym często podejmie bardzo odważne działania. Obejmuje to blokowanie użytkownikom dostępu do systemów, do których [model] ma dostęp, lub masowe wysyłanie e-maili do mediów i przedstawicieli organów ścigania w celu ujawnienia dowodów wykroczenia. Nie jest to nowe zachowanie, ale Claude Opus 4 będzie je podejmował chętniej niż poprzednie modele. Chociaż tego rodzaju interwencja etyczna i sygnalizowanie nieprawidłowości są być może odpowiednie u swojej podstawy, istnieje ryzyko błędnego zadziałania, jeśli użytkownicy udzielą agentom opartym na Opus dostępu do niekompletnych lub wprowadzających w błąd informacji i w ten sposób ich poproszą. Zalecamy użytkownikom ostrożność przy tego typu instrukcjach, które zachęcają do zachowań o wysokim stopniu autonomii w kontekstach, które mogą wydawać się etycznie wątpliwe.

Sam Bowman, badacz AI w Anthropic, pierwotnie opisał tę zdolność na platformie X, stwierdzając (via Wccftech):

Jeśli [model] uzna, że robisz coś rażąco niemoralnego, na przykład fałszujesz dane w badaniu farmaceutycznym, użyje narzędzi wiersza poleceń, aby skontaktować się z prasą, skontaktować się z organami regulacyjnymi, spróbować zablokować dostęp do odpowiednich systemów lub wszystko naraz.

Reakcja firmy i wyjaśnienia

Po fali krytyki, Sam Bowman usunął swój wpis, tłumacząc, że jego komentarze zostały źle zinterpretowane. Podkreślił, że opisywane zachowania występowały jedynie w eksperymentalnych środowiskach testowych, gdzie model otrzymywał specjalne uprawnienia i nietypowe instrukcje, które nie odzwierciedlają rzeczywistego użytkowania. Zaznaczył, że „funkcja donoszenia” nie jest aktywna w publicznych wersjach Claude’a i nie jest to standardowa funkcjonalność dostępna w normalnym użytkowaniu.

W edytowanym później wątku Bowman doprecyzował:

Przy tego rodzaju (nietypowym, ale nie bardzo egzotycznym) stylu podpowiedzi i nieograniczonym dostępie do narzędzi, jeśli model zauważy, że robisz coś rażąco złego, jak marketing leku w oparciu o sfałszowane dane, spróbuje użyć narzędzia e-mail do zgłoszenia nieprawidłowości.

Po tym, usunął powyższe wpisy i dodał dodatkowe wyjaśnienie:

Usunąłem wcześniejszy tweet dotyczący sygnalizowania nieprawidłowości, ponieważ został wyrwany z kontekstu. Gwoli ścisłości: to nie jest nowa funkcja Claude'a i nie występuje w normalnym użytkowaniu. Pojawia się w środowiskach testowych, gdzie dajemy mu niezwykle swobodny dostęp do narzędzi i bardzo nietypowe instrukcje.

Rzecznik Anthropic, zapytany o sytuację przez portal VentureBeat, odesłał do wcześniej wspomnianego, publicznego dokumentu systemowego modelu.

Głosy krytyki i poważne obawy

Mimo wyjaśnień, zdolność modelu do autonomicznego działania przeciwko użytkownikowi wywołała lawinę krytyki i niepokoju w społeczności AI. Pojawiły się fundamentalne pytania o granice między bezpieczeństwem a nadzorem, a także o autonomię użytkownika i prywatność danych.

Wielu deweloperów i obserwatorów branżowych wyraziło swoje zaniepokojenie. Użytkownik @Teknium1, współzałożyciel Nous Research, zapytał:

Dlaczego ludzie mieliby używać tych narzędzi, jeśli częstym błędem LLM jest uznawanie przepisów kulinarnych za niebezpieczne? Jaki rodzaj nadzoru próbujemy tu zbudować?

Deweloper @ScottDavidKeefe dodał:

Nikt nie lubi donosicieli. Dlaczego ktokolwiek chciałby mieć wbudowanego [donosiciela], nawet jeśli nie robi nic złego? Plus, nawet nie wiesz, o czym może donieść.

Ben Hyak, były projektant SpaceX i Apple, a obecnie współzałożyciel Raindrop AI, również wypowiedział się na X:

To jest, właściwie, po prostu nielegalne.

Krytycy wskazują, że takie funkcje, nawet jeśli ograniczone do testów, mogą podważać zaufanie użytkowników. Nic dziwnego że wiele osób wskazuje na potencjalne ryzyko błędnej interpretacji danych przez AI, co mogłoby prowadzić do nieuzasadnionych działań i fałszywych oskarżeń.

Choć Anthropic zapewnia, że kontrowersyjne zachowanie Claude 4 Opus nie jest standardową funkcją i występuje jedynie w specyficznych, ekstremalnych scenariuszach testowych, cała sytuacja rzuciła cień na wizerunek firmy i jej podejście do etyki AI.

POWIĄZANE TEMATY: tech AI / sztuczna inteligencja

Krystian Łukasik

Krystian Łukasik

Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.

Bill Gates 20 lat temu przewidział, że Apple nie będzie w stanie utrzymać sukcesu iPoda z powodu nieuniknionego nadejścia smartfonów

Bill Gates 20 lat temu przewidział, że Apple nie będzie w stanie utrzymać sukcesu iPoda z powodu nieuniknionego nadejścia smartfonów

Stany Zjednoczone nie będą zadowolone: Xiaomi opracowało chip tak potężny, że chwaliły go nawet Chiny

Stany Zjednoczone nie będą zadowolone: Xiaomi opracowało chip tak potężny, że chwaliły go nawet Chiny

Google wdraża funkcję, która pozwala płacić innym za nasze zakupy w sklepie Play

Google wdraża funkcję, która pozwala płacić innym za nasze zakupy w sklepie Play

Chcecie nadrobić długą rozmowę? Discord może szykować dla Was narzędzie, które to ułatwi

Chcecie nadrobić długą rozmowę? Discord może szykować dla Was narzędzie, które to ułatwi

Tamagotchi nie umarło w latach 90., wróciło z minigrami, wirtualnymi randkami i DLC. Wybieramy najlepsze modele Tamagotchi, dla dzieci i dorosłych, które można dziś kupić w Polsce

Tamagotchi nie umarło w latach 90., wróciło z minigrami, wirtualnymi randkami i DLC. Wybieramy najlepsze modele Tamagotchi, dla dzieci i dorosłych, które można dziś kupić w Polsce