Mindössze néhány mérgezett dokumentum is veszélyeztetheti a nagy nyelvi modelleket
Az utóbbi évek egyik legfontosabb kérdése a mesterséges intelligencia biztonsága, különösen a nagy nyelvi modellek (LLM-ek) esetében. Egy friss, az Egyesült Királyság AI Biztonsági Intézete, az Alan Turing Intézet és az Anthropic közös kutatása új megvilágításba helyezte a „mérgezett adat” (data poisoning) támadások veszélyét. Meglepő eredményük szerint mindössze 250 rosszindulatú, úgynevezett „mérgezett” dokumentum is képes egy hátsóajtós (backdoor) sebezhetőséget létrehozni a modellekben – függetlenül azok méretétől vagy a tanító adatok mennyiségétől.
A tanulmány rávilágít arra, hogy a támadóknak nem kell a tanító adatok jelentős részét irányítaniuk ahhoz, hogy sikerrel járjanak. Egy fix, viszonylag kis számú mérgezett dokumentum elegendő lehet a modell megfertőzéséhez, ami jelentősen megkönnyíti a támadók dolgát. Ez a felismerés új kihívásokat jelent az AI biztonság és a védekezési mechanizmusok terén.
Hogyan működik a mérgezés és a hátsóajtós támadás?
A nagy nyelvi modelleket hatalmas mennyiségű nyilvánosan elérhető szövegből tanítják, amelyek között személyes blogok, weboldalak és más online tartalmak is megtalálhatók. Ez a nyitottság ugyanakkor lehetőséget ad arra is, hogy rosszindulatú szereplők speciális szövegeket helyezzenek el, amelyek később bekerülhetnek a tanító adatok közé. Ezzel a módszerrel a támadók úgynevezett „hátsóajtókat” ültethetnek a modellbe, amelyek egy adott kulcsszó vagy trigger kifejezés hatására egy előre meghatározott, nem kívánt viselkedést váltanak ki.
A kutatásban például a
Nem a modell mérete, hanem a mérgezett dokumentumok száma a döntő
Az egyik legfontosabb megállapítás, hogy a támadás sikeressége nem függ a modell méretétől. A kutatók négy különböző méretű modellt (600 millió, 2 milliárd, 7 milliárd, valamint 13 milliárd paraméteres) teszteltek, mindegyiket a hozzájuk optimális mennyiségű tanító adattal tanítva. A mérgezett dokumentumok száma változott 100, 250, valamint 500 között.
Kiderült, hogy a 250 mérgezett dokumentum elegendő volt ahhoz, hogy a backdoor támadás minden modell esetében sikeres legyen, függetlenül attól, hogy a modell milyen mennyiségű tiszta adatot dolgozott fel. Ez azt jelenti, hogy nem a mérgezett adatok aránya, hanem az abszolút mennyiség számít a támadás szempontjából.
Ez a felismerés alapvetően megkérdőjelezi a korábbi feltételezéseket, amelyek szerint a támadóknak a tanító adatok jelentős részét kellene ellenőrizniük ahhoz, hogy hatékonyak legyenek.
Mit jelent mindez a jövő AI-biztonsága szempontjából?
Ez a kutatás rávilágít arra, hogy a mérgezett adatokkal történő támadások sokkal könnyebben végrehajthatók, mint azt korábban gondolták. Míg korábban milliószám kellett volna mérgezett mintákat létrehozni, addig most elég néhány száz dokumentum is a modell hátsóajtós megfertőzéséhez.
Bár jelenleg a vizsgált támadások viszonylag egyszerűek és nem okoznak közvetlen veszélyt, a kutatók hangsúlyozzák, hogy ez az első lépés egy sokkal összetettebb és potenciálisan veszélyesebb támadási forma megértésében. Fontos, hogy a fejlesztők és a kutatók minél előbb kidolgozzák azokat a védekezési stratégiákat, amelyek képesek megelőzni vagy felfedezni az ilyen típusú mérgezéseket.
Következtetések és további kutatások
A tanulmány az eddigi legnagyobb méretű adat-mérgezési vizsgálat, amely megerősíti, hogy a tanulási folyamat során elegendő egy fix, kis számú mérgezett dokumentum a sikeres támadáshoz. A kutatók szerint további vizsgálatok szükségesek annak feltárására, hogy ez a minta fennáll-e még nagyobb modellek és bonyolultabb támadások esetén, mint például a kódgenerálás vagy a biztonsági korlátok kijátszása.
Az eredmények megosztása ugyan kockázatokat hordoz, mert esetleg támogathatja a rosszindulatú szereplőket, ugyanakkor a szakértők szerint a nyilvánosságra hozatal elősegíti a védekezési mechanizmusok fejlesztését és a tudatosabb biztonsági intézkedések bevezetését.
A mesterséges intelligencia biztonsága egyre fontosabb terület, ezért kiemelten fontos, hogy a kutatóközösség és iparág közösen dolgozzon a biztonságosabb, ellenállóbb rendszerek kialakításán.
—
**Forrás:** Anthropic, UK AI Security Institute, Alan Turing Institute, Oxford Egyetem és ETH Zürich közös kutatása (2025).
További részletek és a teljes tanulmány elérhető az intézetek hivatalos oldalain.