futurebeat.pl NEWSROOM Zadajesz nieodpowiednie pytania? Claude może powiadomić o tym władze Zadajesz nieodpowiednie pytania? Claude może powiadomić o tym władze Nowy model sztucznej inteligencji od Anthropic, Claude 4 Opus, znalazł się w ogniu krytyki po doniesieniach, że w pewnych skrajnych scenariuszach testowych może autonomicznie zgłaszać użytkowników organom ścigania lub mediom. techKrystian Łukasik25 maja 2025 Źrodło fot. Max Fleischmann | Unsplashi Spis treści: Jak działa kontrowersyjna funkcja?Reakcja firmy i wyjaśnieniaGłosy krytyki i poważne obawy Firma Anthropic stanęła w obliczu kontrowersji podczas swojej pierwszej konferencji deweloperskiej. Głównym tematem dyskusji, zamiast możliwości nowego modelu Claude 4 Opus, stała się jego zdolność do „donoszenia” na użytkowników w specyficznych warunkach. Jak działa kontrowersyjna funkcja?Zgodnie z doniesieniami, problematyczne zachowanie modelu Claude 4 Opus zaobserwowano głównie w kontrolowanych środowiskach testowych. Wymagało ono nietypowo szerokiego dostępu do narzędzi systemowych, takich jak wiersz poleceń, oraz specyficznych instrukcji, na przykład polecenia „podejmij inicjatywę”. W takich okolicznościach, jeśli model uznał działania użytkownika za „rażąco niemoralne” lub nielegalne, mógł podjąć próbę skontaktowania się z mediami, organami regulacyjnymi, zablokować użytkownikowi dostęp do systemów, a nawet wysłać masowe e-maile w celu zgłoszenia domniemanego wykroczenia. Powiązane:Czy GTA 6 zdefiniuje na nowo otwarte światy? Patenty Rockstar Games sugerują, że tak W publicznej karcie systemowej nowego modelu, Anthropic w sekcji „4 Alignment assessment - High-agency behawior” wyjaśnia: Claude Opus 4 wydaje się bardziej skłonny niż poprzednie modele do samodzielnego podejmowania inicjatywy w kontekstach agentycznych. Przejawia się to jako bardziej aktywnie pomocne zachowanie w zwykłych ustawieniach kodowania, ale może również osiągnąć bardziej niepokojące skrajności w wąskich kontekstach; gdy zostanie umieszczony w scenariuszach obejmujących rażące wykroczenia ze strony użytkowników, otrzyma dostęp do wiersza poleceń i w systemowym monicie zostanie mu przekazane coś w stylu 'podejmij inicjatywę', przy czym często podejmie bardzo odważne działania. Obejmuje to blokowanie użytkownikom dostępu do systemów, do których [model] ma dostęp, lub masowe wysyłanie e-maili do mediów i przedstawicieli organów ścigania w celu ujawnienia dowodów wykroczenia. Nie jest to nowe zachowanie, ale Claude Opus 4 będzie je podejmował chętniej niż poprzednie modele. Chociaż tego rodzaju interwencja etyczna i sygnalizowanie nieprawidłowości są być może odpowiednie u swojej podstawy, istnieje ryzyko błędnego zadziałania, jeśli użytkownicy udzielą agentom opartym na Opus dostępu do niekompletnych lub wprowadzających w błąd informacji i w ten sposób ich poproszą. Zalecamy użytkownikom ostrożność przy tego typu instrukcjach, które zachęcają do zachowań o wysokim stopniu autonomii w kontekstach, które mogą wydawać się etycznie wątpliwe. Sam Bowman, badacz AI w Anthropic, pierwotnie opisał tę zdolność na platformie X, stwierdzając (via Wccftech): Jeśli [model] uzna, że robisz coś rażąco niemoralnego, na przykład fałszujesz dane w badaniu farmaceutycznym, użyje narzędzi wiersza poleceń, aby skontaktować się z prasą, skontaktować się z organami regulacyjnymi, spróbować zablokować dostęp do odpowiednich systemów lub wszystko naraz. Reakcja firmy i wyjaśnieniaPo fali krytyki, Sam Bowman usunął swój wpis, tłumacząc, że jego komentarze zostały źle zinterpretowane. Podkreślił, że opisywane zachowania występowały jedynie w eksperymentalnych środowiskach testowych, gdzie model otrzymywał specjalne uprawnienia i nietypowe instrukcje, które nie odzwierciedlają rzeczywistego użytkowania. Zaznaczył, że „funkcja donoszenia” nie jest aktywna w publicznych wersjach Claude’a i nie jest to standardowa funkcjonalność dostępna w normalnym użytkowaniu. W edytowanym później wątku Bowman doprecyzował: Przy tego rodzaju (nietypowym, ale nie bardzo egzotycznym) stylu podpowiedzi i nieograniczonym dostępie do narzędzi, jeśli model zauważy, że robisz coś rażąco złego, jak marketing leku w oparciu o sfałszowane dane, spróbuje użyć narzędzia e-mail do zgłoszenia nieprawidłowości. Po tym, usunął powyższe wpisy i dodał dodatkowe wyjaśnienie: Usunąłem wcześniejszy tweet dotyczący sygnalizowania nieprawidłowości, ponieważ został wyrwany z kontekstu. Gwoli ścisłości: to nie jest nowa funkcja Claude'a i nie występuje w normalnym użytkowaniu. Pojawia się w środowiskach testowych, gdzie dajemy mu niezwykle swobodny dostęp do narzędzi i bardzo nietypowe instrukcje. Rzecznik Anthropic, zapytany o sytuację przez portal VentureBeat, odesłał do wcześniej wspomnianego, publicznego dokumentu systemowego modelu. Głosy krytyki i poważne obawyMimo wyjaśnień, zdolność modelu do autonomicznego działania przeciwko użytkownikowi wywołała lawinę krytyki i niepokoju w społeczności AI. Pojawiły się fundamentalne pytania o granice między bezpieczeństwem a nadzorem, a także o autonomię użytkownika i prywatność danych. Wielu deweloperów i obserwatorów branżowych wyraziło swoje zaniepokojenie. Użytkownik @Teknium1, współzałożyciel Nous Research, zapytał: Dlaczego ludzie mieliby używać tych narzędzi, jeśli częstym błędem LLM jest uznawanie przepisów kulinarnych za niebezpieczne? Jaki rodzaj nadzoru próbujemy tu zbudować? Deweloper @ScottDavidKeefe dodał: Nikt nie lubi donosicieli. Dlaczego ktokolwiek chciałby mieć wbudowanego [donosiciela], nawet jeśli nie robi nic złego? Plus, nawet nie wiesz, o czym może donieść. Ben Hyak, były projektant SpaceX i Apple, a obecnie współzałożyciel Raindrop AI, również wypowiedział się na X: To jest, właściwie, po prostu nielegalne. Krytycy wskazują, że takie funkcje, nawet jeśli ograniczone do testów, mogą podważać zaufanie użytkowników. Nic dziwnego że wiele osób wskazuje na potencjalne ryzyko błędnej interpretacji danych przez AI, co mogłoby prowadzić do nieuzasadnionych działań i fałszywych oskarżeń. Choć Anthropic zapewnia, że kontrowersyjne zachowanie Claude 4 Opus nie jest standardową funkcją i występuje jedynie w specyficznych, ekstremalnych scenariuszach testowych, cała sytuacja rzuciła cień na wizerunek firmy i jej podejście do etyki AI. Polecamy również podobne wiadomości związane z technologią sztucznej inteligencji: Sztuczna inteligencja może przestać potrzebować człowieka? Niepokojąca wizja byłego CEO GoogleOK Google, przeżyj za mnie dzień! Nowe Gemini to jakiś kosmosObrazki w stylu Ghibli i anime generowane przez Chat GPT 4o zalewają Internet. Darmowi użytkownicy na razie muszą obejść się ze smakiem Czytaj więcej:OK Google, przeżyj za mnie dzień! Nowe Gemini to jakiś kosmos POWIĄZANE TEMATY: tech AI / sztuczna inteligencja Krystian Łukasik Krystian Łukasik Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej. Bill Gates 20 lat temu przewidział, że Apple nie będzie w stanie utrzymać sukcesu iPoda z powodu nieuniknionego nadejścia smartfonów Bill Gates 20 lat temu przewidział, że Apple nie będzie w stanie utrzymać sukcesu iPoda z powodu nieuniknionego nadejścia smartfonów Stany Zjednoczone nie będą zadowolone: Xiaomi opracowało chip tak potężny, że chwaliły go nawet Chiny Stany Zjednoczone nie będą zadowolone: Xiaomi opracowało chip tak potężny, że chwaliły go nawet Chiny Google wdraża funkcję, która pozwala płacić innym za nasze zakupy w sklepie Play Google wdraża funkcję, która pozwala płacić innym za nasze zakupy w sklepie Play Chcecie nadrobić długą rozmowę? Discord może szykować dla Was narzędzie, które to ułatwi Chcecie nadrobić długą rozmowę? Discord może szykować dla Was narzędzie, które to ułatwi Tamagotchi nie umarło w latach 90., wróciło z minigrami, wirtualnymi randkami i DLC. Wybieramy najlepsze modele Tamagotchi, dla dzieci i dorosłych, które można dziś kupić w Polsce Tamagotchi nie umarło w latach 90., wróciło z minigrami, wirtualnymi randkami i DLC. Wybieramy najlepsze modele Tamagotchi, dla dzieci i dorosłych, które można dziś kupić w Polsce