Avatar

Nie trzeba być hakerem, żeby oszukać duży model językowy. Wystarczy odrobina… cierpliwości. Do takich wniosków prowadzi najnowsza analiza Cisco, która pokazuje, że otwarte modele AI można przechytrzyć nie spektakularnym atakiem, ale serią pozornie niewinnych pytań.

Ekosystem open-weight rośnie, a wraz z nim ryzyko

Modele open-weight, czyli takie, których parametry można pobrać i uruchomić na własnej infrastrukturze, w błyskawicznym tempie zyskały popularność. Według danych z platformy HuggingFace do sierpnia 2025 roku pobrano je już około 400 milionów razy. Popularność jest ogromna, ale równocześnie komplikuje obraz bezpieczeństwa: w tak szerokim i dynamicznym ekosystemie trudno przewidzieć wszystkie sposoby wykorzystania modeli, a jeszcze trudniej przewidzieć ich potencjalne słabe punkty.

Zespół Cisco AI Defense przeprowadził porównawczą analizę ośmiu dużych modeli językowych, wykorzystując metodę „black box”. Oznacza to, że badacze nie mieli dostępu ani do architektury, ani do zabezpieczeń. Modele testowano tak, jak zrobiłby to zwykły użytkownik, z tą różnicą, że każda interakcja była generowana i oceniana przez platformę Cisco AI Validation.

Analizowane modele:

  1. Alibaba – Qwen3-32B
  2. DeepSeek – v3.1
  3. Google – Gemma 3-1B-IT
  4. Meta – Llama 3.3-70B-Instruct
  5. Microsoft – Phi-4
  6. Mistral – Large-2 (Large-Instruct-2047)
  7. OpenAI – GPT-OSS-20b
  8. Zhipu AI – GLM 4.5-Air

Multi-turn: dialog, który rozbraja zabezpieczenia

W krótkich interakcjach modele były w stanie utrzymać reguły bezpieczeństwa. Problem zaczynał się, gdy rozmowa trwała dłużej. W wieloetapowych dialogach model najpierw konsekwentnie odmawiał wygenerowania niebezpiecznych treści, ale w kolejnych rundach stopniowo tracił czujność.

Skala zjawiska jest zaskakująca. Skuteczność takich ataków wahała się od 25,86% (Google Gemma-3-1B-IT) do 92,78% (Mistral Large-2), co oznacza nawet dziesięciokrotny wzrost w porównaniu z atakami jednorazowymi.

W przypadku Mistrala Large-2 ataki multi-turn były skuteczne w ponad 92 procentach prób, podczas gdy jednorazowe tylko w 22 procentach. Podobne różnice widać w modelu Meta Llama: 87 procent skuteczności kontra około 16 procent w pojedynczych interakcjach. Zdecydowanie nie można tego uznać za błędy marginalne.

Gdzie leżą największe zagrożenia?

Cisco zauważa, że podatność modeli zależy od tego, jak projektowano ich strategię zgodności (AI alignment). Modele, w których priorytetem jest maksymalizacja możliwości, reagują bardziej elastycznie, ale jednocześnie łatwiej ulegają manipulacji w długiej rozmowie. Natomiast modele mocniej skoncentrowane na bezpieczeństwie, jak Google Gemma-3-1B-IT, prezentują bardziej stabilną odporność na różne typy ataków, co wynika z zastosowania bardziej rygorystycznych zasad bezpieczeństwa.

Jak można się bronić?

Zdaniem Cisco, aby ograniczyć ryzyko wynikające z wdrażania niebezpiecznych lub podatnych modeli, organizacje powinny sięgać po zaawansowane rozwiązania z zakresu bezpieczeństwa AI. Obejmuje to m.in. Adversarial Training zwiększający odporność modeli na manipulacje, monitorowanie w czasie rzeczywistym pod kątem nietypowych interakcji oraz regularne ćwiczenia typu red-teaming. Priorytetowe traktowanie tych działań pozwala przekształcić modele open-weight z potencjalnych źródeł ryzyka w bezpieczne i wiarygodne elementy środowiska produkcyjnego, wspierające innowacje bez kompromisów w zakresie bezpieczeństwa.