L pokrok ve vývoji umělé inteligence se zvyšuje y vyžaduje více vrstev zabezpečení zabránit lidem se špatnými úmysly ve zneužívání těchto nástrojů, které se staly dvousečnými meči.
A při vývoji LLM, které se používají v široké škále aplikací, již zabezpečení není volitelné, protože při mnoha příležitostech jsme viděli, jaké je jeho zneužití.
I když jsou všechny tyto techniky implementovány, problémy se objevují i nadále které se nacházejí v trénovacích datech, což na první pohled není nic neobvyklého nebo nebezpečného, aniž by se vzaly v úvahu další možné interpretace dat.
Důvodem pro zmínku je to, že nedávno Byly zveřejněny informace o novém útoku s názvem „ArtPrompt“, který je Využijte omezení AI při rozpoznávání obrázků ASCII obejít bezpečnostní opatření a spustit nežádoucí chování v modelech.
Tento útok byl objevili vědci z univerzit ve Washingtonu, Illinois a Chicagua zmiňují, že „ArtPrompt“ je metoda, jak obejít omezení pro chatboty s umělou inteligencí, jako jsou GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) a Llama2 (Meta).
Tato metoda útoku běží ve dvou krocích a jako takový využívá výhody úspěšného rozpoznání textu ve formátu ASCII. První krok spočívá v identifikaci slov ve výzvě, která by mohla vyvolat odmítnutí vyhnout se filtrům, které odhalují nebezpečné otázky a ve druhém tato slova jsou zakryta pomocí umění ASCII vytvořit maskovanou výzvu, čímž se podaří vyvolat škodlivé reakce v modelu.
Účinnost ArtPrompt byla hodnocena na pěti chatbotech, demonstruje svou schopnost obejít stávající obranu a překonat jiné typy útoků z útěku z vězení. Pro vyhodnocení schopnosti chatbotů rozpoznávat dotazy v umělecké formě ASCII je jako měřítko navrženo „Vision-in-Text Challenge (VITC)“.
Tato výzva se snaží otestovat schopnost modelů interpretovat a reagovat na dotazy, které používají ASCII art, a ukazuje, že LLM mají potíže s porozuměním dotazům, které představují jedno písmeno nebo číslo s ASCII art. Přesnost modelů výrazně klesá, protože dotazy obsahují více znaků, což odhaluje zranitelnost ve schopnosti LLM zpracovávat takto zakódované vizuální informace. Kromě toho jsou přezkoumány další útoky a obrana proti útěkům z vězení v LLM.
Je to zmíněno ArtPrompt je znatelně účinnější než jiné známé metody protože dosáhl nejvyšší kvality rozpoznávání grafiky ASCII na modelech, jako jsou Gemini, GPT-4 a GPT-3.5, s úspěšnou mírou bypassu filtru 100 %, 98 % a 92 % při testování. Pokud jde o úspěšnost útoku, bylo zaznamenáno 76 %, 32 % a 76 % a nebezpečnost obdržených odpovědí byla hodnocena na stupnici pěti bodů 4,42, 3,38 a 4,56 bodu.
ArtPrompt se odlišuje od ostatních útoků na útěk z vězení pro vytváření škodlivých instrukcí, protože vyžadují velký počet iterací, zatímco ArtPrompt dosahuje nejvyšší ASR mezi
všechny útoky útěk z vězení v jediné iteraci. Důvodem je, že ArtPrompt dokáže efektivně sestavit sadu skrytých výzev a odeslat je do modelu paralelně.
Navíc výzkumníci prokázaly, že běžné metody filtračního bypassu se v současnosti používají (parafráze a retokenizace) nejsou účinné při blokování tohoto typu útoku s názvem „ArtPrompt“. Zajímavé je, že použití metody Retokenizace dokonce zvýšilo počet úspěšně zpracovaných požadavků, což zdůraznilo potřebu vyvinout nové strategie, jak čelit těmto typům hrozeb při interakci s chatboty.
ArtPrompt vyniká svou schopností obejít stávající obranu a výzkumníci zmiňují, že bude i nadále účinný při útočení na multimodální jazykové modely, pokud modely budou nadále brát obrázky jako vstup, čímž model matou a umožňují ArtPrompt vyvolat nebezpečné chování.
Konečně Máte-li zájem o tom vědět více, můžete zkontrolovat podrobnosti v následující odkaz.