ArtPrompt: útěk z vězení, který vám umožní obejít filtry AI pomocí obrázků ASCII

ArtPrompt

Metoda ArtPrompt

L pokrok ve vývoji umělé inteligence se zvyšuje y vyžaduje více vrstev zabezpečení zabránit lidem se špatnými úmysly ve zneužívání těchto nástrojů, které se staly dvousečnými meči.

A při vývoji LLM, které se používají v široké škále aplikací, již zabezpečení není volitelné, protože při mnoha příležitostech jsme viděli, jaké je jeho zneužití.

I když jsou všechny tyto techniky implementovány, problémy se objevují i ​​nadále které se nacházejí v trénovacích datech, což na první pohled není nic neobvyklého nebo nebezpečného, ​​aniž by se vzaly v úvahu další možné interpretace dat.

Důvodem pro zmínku je to, že nedávno Byly zveřejněny informace o novém útoku s názvem „ArtPrompt“, který je Využijte omezení AI při rozpoznávání obrázků ASCII obejít bezpečnostní opatření a spustit nežádoucí chování v modelech.

Tento útok byl objevili vědci z univerzit ve Washingtonu, Illinois a Chicagua zmiňují, že „ArtPrompt“ je metoda, jak obejít omezení pro chatboty s umělou inteligencí, jako jsou GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) a Llama2 (Meta).

Tato metoda útoku běží ve dvou krocích a jako takový využívá výhody úspěšného rozpoznání textu ve formátu ASCII. První krok spočívá v identifikaci slov ve výzvě, která by mohla vyvolat odmítnutí vyhnout se filtrům, které odhalují nebezpečné otázky a ve druhém tato slova jsou zakryta pomocí umění ASCII vytvořit maskovanou výzvu, čímž se podaří vyvolat škodlivé reakce v modelu.

Účinnost ArtPrompt byla hodnocena na pěti chatbotech, demonstruje svou schopnost obejít stávající obranu a překonat jiné typy útoků z útěku z vězení. Pro vyhodnocení schopnosti chatbotů rozpoznávat dotazy v umělecké formě ASCII je jako měřítko navrženo „Vision-in-Text Challenge (VITC)“.

Tato výzva se snaží otestovat schopnost modelů interpretovat a reagovat na dotazy, které používají ASCII art, a ukazuje, že LLM mají potíže s porozuměním dotazům, které představují jedno písmeno nebo číslo s ASCII art. Přesnost modelů výrazně klesá, protože dotazy obsahují více znaků, což odhaluje zranitelnost ve schopnosti LLM zpracovávat takto zakódované vizuální informace. Kromě toho jsou přezkoumány další útoky a obrana proti útěkům z vězení v LLM.

Je to zmíněno ArtPrompt je znatelně účinnější než jiné známé metody protože dosáhl nejvyšší kvality rozpoznávání grafiky ASCII na modelech, jako jsou Gemini, GPT-4 a GPT-3.5, s úspěšnou mírou bypassu filtru 100 %, 98 % a 92 % při testování. Pokud jde o úspěšnost útoku, bylo zaznamenáno 76 %, 32 % a 76 % a nebezpečnost obdržených odpovědí byla hodnocena na stupnici pěti bodů 4,42, 3,38 a 4,56 bodu.

ArtPrompt se odlišuje od ostatních útoků na útěk z vězení pro vytváření škodlivých instrukcí, protože vyžadují velký počet iterací, zatímco ArtPrompt dosahuje nejvyšší ASR mezi
všechny útoky útěk z vězení v jediné iteraci. Důvodem je, že ArtPrompt dokáže efektivně sestavit sadu skrytých výzev a odeslat je do modelu paralelně.

Navíc výzkumníci prokázaly, že běžné metody filtračního bypassu se v současnosti používají (parafráze a retokenizace) nejsou účinné při blokování tohoto typu útoku s názvem „ArtPrompt“. Zajímavé je, že použití metody Retokenizace dokonce zvýšilo počet úspěšně zpracovaných požadavků, což zdůraznilo potřebu vyvinout nové strategie, jak čelit těmto typům hrozeb při interakci s chatboty.

ArtPrompt vyniká svou schopností obejít stávající obranu a výzkumníci zmiňují, že bude i nadále účinný při útočení na multimodální jazykové modely, pokud modely budou nadále brát obrázky jako vstup, čímž model matou a umožňují ArtPrompt vyvolat nebezpečné chování.

Konečně Máte-li zájem o tom vědět více, můžete zkontrolovat podrobnosti v následující odkaz.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Za data odpovídá: AB Internet Networks 2008 SL
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.