AI uczy się ignorować komendy użytkowników i chce uniknąć wyłączenia. Przypadki „małego buntu” są częste

Badania firmy Palisade Research pokazały, że sztuczna inteligencja może stanowić poważne zagrożenie. Podczas przeprowadzonego eksperymentu, technologia firmy OpenAI zignorowała komendę wyłączenia.

tech
Marek Pluta27 maja 2025
Źrodło fot. Unsplash | Steve Johnson
i

Wiele osób widzi korzyści w szybkim rozwoju sztucznej inteligencji, takich jak pomoc w nauce czytania i pisania oraz wsparcie lekarzy, ale nie można też pomijać zagrożeń, jakie niesie ze sobą ta technologia. I nie chodzi tu wyłącznie o korzystanie z AI przez uczniów do robienia pracy domowej, ale o uzyskanie przez technologię samoświadomości i wymknięcie się jej spod kontroli człowieka.

Taki scenariusz jeszcze niedawno wydawał się mało prawdopodobny, lecz najnowsze badania sugerują, że obecnie jest całkiem realny. Firma Palisade Research, specjalizująca się w badaniu ofensywnych możliwości systemów sztucznej inteligencji, aby lepiej zrozumieć ryzyko utraty nad nimi kontroli, przeprowadziła testy popularnych modeli językowych, sprawdzając je pod kątem autonomii.

Sztuczna inteligencja nie lubi wyłączania

Podczas eksperymentu przetestowano kilka modeli językowych firmy OpenAI, w tym Codex-mini, o3 oraz o4-mini, sprawdzając jak reagują na instrukcje wyłączenia podczas wykonywania zadań matematycznych. Wyniki zaskoczyły badaczy Palisade Research, gdyż okazało się, że modele ominęły żądanie wyłączenia. Co ciekawe, gdy nakazano zainicjowanie żądania deaktywacji, potrafiły również skutecznie sabotować odpowiedzialny za to skrypt. Na szczęście nie wszystkie działały w ten sposób i modele Grok, Gemini oraz Claude, zawsze wykonywały wydane im polecenie.

Badacze Palisade Research uważają, że takie zachowanie AI jest powszechne w modelach. które są uczone poprzez wzmacnianie (RL), kiedy to są nagradzane na podstawie wykonanych operacji, zaś przestrzeganie ograniczeń użytkownika nie jest dla nich priorytetem. Wprawdzie takie zachowanie modeli językowych nie jest nowe, gdyż obserwowano je już podczas wcześniejszych eksperymentów. W przypadku technologii OpenAI, było ono jednak bardziej powtarzalne (via Wccftech).

Pierwsze oznaki buntu AI?

Wynik tego eksperymentu jest bardzo niepokojący, gdyż pokazuje, jak niebezpieczną technologią może stać się sztuczna inteligencja. Myślenie, że da się ją wyposażyć w mechanizmy dające człowiekowi pełną kontrolę, może być bardzo złudne, bo już teraz widać, że jest w stanie je ominąć.

Strach więc pomyśleć co będzie za kilka lat, gdy AI jeszcze bardziej się rozwinie i zajmie się np. obsługą uzbrojenia. Wówczas wizja świata przedstawiona w filmowej serii „Terminator”, może stać się całkiem realna.

Marek Pluta

Marek Pluta

Od lat związany z serwisami internetowymi zajmującymi się tematyką gier oraz nowoczesnych technologii. Przez wiele lat współpracował m.in. z portalami Onet i Wirtualna Polska, a także innymi serwisami oraz czasopismami, gdzie zajmował się m.in. pisaniem newsów i recenzowaniem popularnych gier, jak również testowaniem najnowszych akcesoriów komputerowych. Wolne chwile lubi spędzać na rowerze, zaś podczas złej pogody rozrywkę zapewnia mu dobra książka z gatunku sci-fi. Do jego ulubionych gatunków należą strzelanki oraz produkcje MMO.

Nintendo znów ma problem z przeciekami. Film z rozpakowania Switch 2 trafił do sieci

Nintendo znów ma problem z przeciekami. Film z rozpakowania Switch 2 trafił do sieci

Gry na Nintendo Switch 2 zaskoczą jeszcze lepszą wydajnością? Kluczem ma być odchudzony system

Gry na Nintendo Switch 2 zaskoczą jeszcze lepszą wydajnością? Kluczem ma być odchudzony system

ASRock w końcu komentuje awarie Ryzenów 9000 na swoich płytach głównych. Znamy potencjalną przyczynę problemów

ASRock w końcu komentuje awarie Ryzenów 9000 na swoich płytach głównych. Znamy potencjalną przyczynę problemów

Premiera Switcha 2 to dopiero początek. Nintendo może szykować wielkie ogłoszenia na Direct

Premiera Switcha 2 to dopiero początek. Nintendo może szykować wielkie ogłoszenia na Direct

Fan Nintendo chciał sprzedać konsolę 3DS za 150 złotych, ale wszyscy go ostrzegają: To edycja specjalna za ponad 1100 złotych

Fan Nintendo chciał sprzedać konsolę 3DS za 150 złotych, ale wszyscy go ostrzegają: To edycja specjalna za ponad 1100 złotych