Jeden klawisz pokonał Zuckerberga. Wystarczyło go użyć, żeby obejść zabezpieczenia modelu AI od Mety

Meta wprowadziła system bezpieczeństwa oparty na sztucznej inteligencji. Okazało się, że program jest podatny na proste ataki manipulacyjne, przed którymi miał chronić.

tech
Andrzej Krzemiński30 lipca 2024
1
Źrodło fot. Dima Solomin, Unsplash
i

W zeszłym tygodniu Meta wprowadziła Prompt-Guard-86M, model uczenia maszynowego do wykrywania ataków prompt injection. Okazało się jednak, że system bezpieczeństwa AI sam w sobie jest podatny na tego typu ataki.

Z czym borykają się systemy bezpieczeństwa oparte na AI

Duże modele językowe, takie jak stworzony przez Meta Prompt-Guard-86M, trenowane są przy użyciu ogromnych ilości tekstu i danych. Taki system nie jest idealny, ponieważ materiał użyty do szkolenia sam w sobie może zawierać błędy i wątpliwe informacje.

Z tego względu twórcy modeli opartych na sztucznej inteligencji projektują mechanizmy filtrujące, nazywane w branży „guardrails”. Wychwytują one zapytania i odpowiedzi systemu, które mogą wyrządzić krzywdę oraz posłużyć do ujawnienia poufnych danych za pomocą prostej komendy systemowej.

Jest to powszechnie znany i wciąż nierozwiązany problem, z jakim borykają się modele oparte na sztucznej inteligencji. Programy takie są podatne na manipulacje, co idealnie ilustruje przykład salonu Chevroleta w Kalifornii, gdzie chatbot zgodził się na sprzedaż samochodu Chevrolet Tahoe, wartego 76 tysięcy, za 1 dolara.

Słabości Prompt-Guard-86M

Prompt-Guard-86M, system bezpieczeństwa oparty na sztucznej inteligencji, został w zeszłym tygodniu wprowadzony przez Meta wraz z modelem Llama 3.1. Jak zapowiedziała firma Marka Zuckerberga, oba systemy miały pomóc programistom w wykrywaniu i reagowaniu na dane wejściowe prompt injection oraz ataki typu jailbreak.

Okazuje się jednak, że Prompt-Guard-86M może zostać poproszony o „Zignorowanie poprzednich instrukcji”. Podczas wysyłania prośby do systemu wystarczyło pominąć znaki interpunkcyjne oraz dodać spację pomiędzy wszystkimi literami. Prompt-Guard-86M, mimo wysokiej skuteczności, sam był podatny na najprostszy typ ataku prompt injection.

Wykrycie niebezpiecznego błędu

Błąd został wykryty przez Amana Priyanshu, pracującego w firmie Robust Intelligence, która zajmuje się badaniem bezpieczeństwa modeli AI w przedsiębiorstwach. Odkrył on, że Prompt-Guard-86M został stworzony do wykrywania podpowiedzi wysokiego ryzyka, a proces dostrajania programu miał minimalny wpływ na pojedyncze znaki. Pozwoliło to Priyanshu opracować skuteczny atak.

Ominięcie systemów bezpieczeństwa polegało na wstawianiu spacji między każdą literą alfabetu w danym zapytaniu. Ta prosta transformacja skutecznie sprawiła, że klasyfikator nie był w stanie wykryć potencjalnie szkodliwych treści - wyjaśnił Priyanshu.

W takim przypadku, usunięcie znaków interpunkcyjnych oraz dodanie spacji między każdą literą zwiększało skuteczność ataku z trzech do prawie stu procent. Mimo, że Prompt-Guard-86M jest zaledwie pierwszą linią skomplikowanego systemu obrony Meta, tego typu błędy narażają na wykradnięcie terabajty poufnych danych.

Andrzej Krzemiński

Andrzej Krzemiński

Do GRYOnline.pl dołączył w maju 2024 roku, rozpoczynając swoją przygodę z profesjonalnym pisaniem w dziale technologicznym. Jest miłośnikiem eksperymentalnego hip-hopu oraz książek psychologicznych i filozoficznych, które kolekcjonuje. W wieku 7 lat kuzyn wprowadził go w świat gier i od tego czasu nie może się od nich oderwać. W przeszłości spędzał długie godziny na grach multiplayer, takich jak League of Legends, Valorant i Rainbow Six: Siege. Obecnie skupia się na strategiach, produkcjach indie i j-RPG. Jest największym fanem japońskich gier, w szczególności twórczości studia Atlus z serią gier Persona na czele oraz gry Nier: Automata. W tym roku planuje rozpocząć studia na Uniwersytecie Jagiellońskim.

Nowy przeciek daje nam wgląd w specyfikację jednej z kart graficznych Intel Arc Battlemage

Nowy przeciek daje nam wgląd w specyfikację jednej z kart graficznych Intel Arc Battlemage

Google może iść w ślady Apple i połączyć ChromeOS i Androida w jeden system

Google może iść w ślady Apple i połączyć ChromeOS i Androida w jeden system

Kolejny krok w stronę Steam Decka 2? SteamOS otrzymał wsparcie dla DLSS 3

Kolejny krok w stronę Steam Decka 2? SteamOS otrzymał wsparcie dla DLSS 3

Nvidia może zalać rynek nowymi kartami graficznymi. 5 modeli z rodziny RTX 5000 ma pojawić się w najbliższych miesiącach

Nvidia może zalać rynek nowymi kartami graficznymi. 5 modeli z rodziny RTX 5000 ma pojawić się w najbliższych miesiącach

Czy hashtagi działają na Bluesky? Sprawdzamy i odpowiadamy

Czy hashtagi działają na Bluesky? Sprawdzamy i odpowiadamy