Jeden klawisz pokonał Zuckerberga. Wystarczyło go użyć, żeby obejść zabezpieczenia modelu AI od Mety

Meta wprowadziła system bezpieczeństwa oparty na sztucznej inteligencji. Okazało się, że program jest podatny na proste ataki manipulacyjne, przed którymi miał chronić.

tech

Andrzej Krzemiński30 lipca 2024

Źrodło fot. Dima Solomin, Unsplash

Spis treści:

Z czym borykają się systemy bezpieczeństwa oparte na AI
Słabości Prompt-Guard-86M
Wykrycie niebezpiecznego błędu

W zeszłym tygodniu Meta wprowadziła Prompt-Guard-86M, model uczenia maszynowego do wykrywania ataków prompt injection. Okazało się jednak, że system bezpieczeństwa AI sam w sobie jest podatny na tego typu ataki.

Z czym borykają się systemy bezpieczeństwa oparte na AI

Duże modele językowe, takie jak stworzony przez Meta Prompt-Guard-86M, trenowane są przy użyciu ogromnych ilości tekstu i danych. Taki system nie jest idealny, ponieważ materiał użyty do szkolenia sam w sobie może zawierać błędy i wątpliwe informacje.

Z tego względu twórcy modeli opartych na sztucznej inteligencji projektują mechanizmy filtrujące, nazywane w branży „guardrails”. Wychwytują one zapytania i odpowiedzi systemu, które mogą wyrządzić krzywdę oraz posłużyć do ujawnienia poufnych danych za pomocą prostej komendy systemowej.

Jest to powszechnie znany i wciąż nierozwiązany problem, z jakim borykają się modele oparte na sztucznej inteligencji. Programy takie są podatne na manipulacje, co idealnie ilustruje przykład salonu Chevroleta w Kalifornii, gdzie chatbot zgodził się na sprzedaż samochodu Chevrolet Tahoe, wartego 76 tysięcy, za 1 dolara.

Słabości Prompt-Guard-86M

Prompt-Guard-86M, system bezpieczeństwa oparty na sztucznej inteligencji, został w zeszłym tygodniu wprowadzony przez Meta wraz z modelem Llama 3.1. Jak zapowiedziała firma Marka Zuckerberga, oba systemy miały pomóc programistom w wykrywaniu i reagowaniu na dane wejściowe prompt injection oraz ataki typu jailbreak.

Okazuje się jednak, że Prompt-Guard-86M może zostać poproszony o „Zignorowanie poprzednich instrukcji”. Podczas wysyłania prośby do systemu wystarczyło pominąć znaki interpunkcyjne oraz dodać spację pomiędzy wszystkimi literami. Prompt-Guard-86M, mimo wysokiej skuteczności, sam był podatny na najprostszy typ ataku prompt injection.

Wykrycie niebezpiecznego błędu

Błąd został wykryty przez Amana Priyanshu, pracującego w firmie Robust Intelligence, która zajmuje się badaniem bezpieczeństwa modeli AI w przedsiębiorstwach. Odkrył on, że Prompt-Guard-86M został stworzony do wykrywania podpowiedzi wysokiego ryzyka, a proces dostrajania programu miał minimalny wpływ na pojedyncze znaki. Pozwoliło to Priyanshu opracować skuteczny atak.

Ominięcie systemów bezpieczeństwa polegało na wstawianiu spacji między każdą literą alfabetu w danym zapytaniu. Ta prosta transformacja skutecznie sprawiła, że klasyfikator nie był w stanie wykryć potencjalnie szkodliwych treści - wyjaśnił Priyanshu.

W takim przypadku, usunięcie znaków interpunkcyjnych oraz dodanie spacji między każdą literą zwiększało skuteczność ataku z trzech do prawie stu procent. Mimo, że Prompt-Guard-86M jest zaledwie pierwszą linią skomplikowanego systemu obrony Meta, tego typu błędy narażają na wykradnięcie terabajty poufnych danych.

POWIĄZANE TEMATY: tech AI / sztuczna inteligencja Mark Zuckerberg Facebook / Meta

Andrzej Krzemiński

Do GRYOnline.pl dołączył w maju 2024 roku, rozpoczynając swoją przygodę z profesjonalnym pisaniem w dziale technologicznym. Jest miłośnikiem eksperymentalnego hip-hopu oraz książek psychologicznych i filozoficznych, które kolekcjonuje. W wieku 7 lat kuzyn wprowadził go w świat gier i od tego czasu nie może się od nich oderwać. W przeszłości spędzał długie godziny na grach multiplayer, takich jak League of Legends, Valorant i Rainbow Six: Siege. Obecnie skupia się na strategiach, produkcjach indie i j-RPG. Jest największym fanem japońskich gier, w szczególności twórczości studia Atlus z serią gier Persona na czele oraz gry Nier: Automata. W tym roku planuje rozpocząć studia na Uniwersytecie Jagiellońskim.

Składać czy rozkładać? 5 powodów, dla których mamy wyraźnego faworyta w pojedynku między Samsungiem Galaxy Flip 7 a Fold 7

gamescom 2025 - co powinieneś wiedzieć

Gracz PlayStation ma już dość swojej porysowanej PS2 i po prostu używa pasty do polerowania samochodów - wynik zaskoczył nawet jego samego

Cały świat gier i popkultury w jednym miejscu - podczas gamescomu 2025 każdy znajdzie coś dla siebie

AI obniża umiejętności lekarzy, zamiast ich wspierać. Polskie badanie pokazuje negatywny wpływ na weryfikację zdrowia pacjenta