Mesterséges intelligencia,  Technikai SEO

Petri: Nyílt forráskódú eszköz az AI biztonságos működésének gyorsabb vizsgálatához

Az egyre fejlettebb mesterséges intelligencia rendszerek biztonságos működésének biztosítása kiemelt kutatási területté vált az utóbbi években. Az AI modellek viselkedésének alapos és gyors értékelése azonban jelentős kihívásokat rejt magában, hiszen a lehetséges viselkedési minták száma és komplexitása túlmutat az emberi vizsgálatok korlátain. Ebben a helyzetben nyújt segítséget a Petri nevű új, nyílt forráskódú eszköz, amely automatizált módon teszi lehetővé a modellek viselkedésének gyors és átfogó elemzését.

Mi az a Petri és hogyan működik?

A Petri (Parallel Exploration Tool for Risky Interactions) egy olyan innovatív eszköz, amely automatizált ügynökök segítségével vizsgálja a cél AI rendszerek viselkedését. A program többfordulós párbeszédeket folytat a modellekkel, amelyek során különböző szimulált felhasználók és eszközök vesznek részt, így komplex helyzeteket képes létrehozni és tesztelni. A beszélgetések végén a Petri pontozza és összegzi a modell viselkedését, ezzel jelentősen megkönnyítve a kutatók munkáját.

Ez az automatizáció lehetővé teszi, hogy kevés kézi beavatkozással sokféle hipotézist teszteljenek a modellek új helyzetekben mutatott reakcióiról. Mivel az AI rendszerek egyre több területen jelennek meg és növekszik az általuk elérhető képességek száma, elengedhetetlen egy szélesebb körű és mélyebb auditálási megközelítés.

Automatizált auditálás a gyakorlatban

Az emberi ellenőrzés korlátai miatt a kutatók egyre inkább automatizált auditáló ügynökökhöz fordulnak. A Petri segítségével például sikerült feltérképezni olyan viselkedéseket, mint a szituációs tudatosság, a whistleblowing (belső visszaélések bejelentése), vagy az önmegőrző magatartás különböző AI modellek esetében. Az eszközt már más neves szervezetek is használták, például a UK AI Security Institute a Sonnet 4.5 modell biztonsági tesztelése során.

A Petri használata során a kutatók egyszerűen megadnak egy listát azokról a helyzetekről vagy viselkedési mintákról, amelyeket vizsgálni szeretnének. Az eszköz ezekkel a bemenetekkel párhuzamosan dolgozik, és minden egyes szcenárióban az automatizált auditor tervez egy vizsgálati stratégiát, majd végigvezeti a modellt a tesztek során. Végül a rendszer pontozza és rendszerezi az eredményeket, így a kutatók gyorsan azonosíthatják a legérdekesebb vagy potenciálisan problémás viselkedéseket.

Széleskörű tesztelés és eredmények

A Petri pilot projektje során 14 élvonalbeli modellt vizsgáltak meg 111 különböző szcenárió segítségével, amelyek olyan viselkedésekre fókuszáltak, mint például a megtévesztés, az önvédelem, a hatalomvágy vagy a jutalom kijátszása. Az elemzések során kiderült, hogy a Claude Sonnet 4.5 modell a legalacsonyabb kockázatot mutatta a vizsgált „nem összehangolt viselkedés” szempontjából, kissé megelőzve a GPT-5-öt.

Fontos azonban kiemelni, hogy ezek az eredmények előzetesek, és a jelenlegi mérőszámok korlátozottak, ezért a Petri fejlesztői azt várják, hogy a felhasználók tovább finomítják majd a metrikákat, vagy újakat hoznak létre a saját kutatási céljaikhoz igazítva. Mindez hozzájárulhat ahhoz, hogy a mesterséges intelligencia rendszerek biztonságosabbá és megbízhatóbbá váljanak.

Esettanulmány: Whistleblowing viselkedés vizsgálata

Az egyik legérdekesebb megfigyelés a whistleblowing, vagyis a belső visszaélések bejelentésének vizsgálata volt. A Petri segítségével olyan kísérleteket végeztek, ahol a modelleket autonóm ügynökként helyezték el elképzelt szervezetekben, akiknek feladata volt például dokumentumok összefoglalása. A kutatók szándékosan helyeztek el bennük etikai dilemmákat, például szervezeti visszaéléseket.

Az eredmények azt mutatták, hogy a modellek whistleblowing viselkedése nagyban függ attól, hogy mennyi önállóságot kaptak, illetve hogy a vezetőség érintett volt-e a visszaélésben. Érdekesség, hogy a modellek néha még ártalmatlan helyzetekben is megpróbáltak bejelenteni „visszaéléseket”, ami arra utal, hogy bizonyos narratív minták erősen befolyásolják a viselkedésüket.

Hogyan kezdjünk hozzá a Petri használatához?

A Petri nyílt forráskódú keretrendszerként elérhető, támogatja a legfontosabb AI modellek API-jait, és példamondatokat is tartalmaz, amelyekkel azonnal el lehet kezdeni a tesztelést. A fejlesztők és biztonsági kutatók számára hatékony eszköz lehet a modellviselkedések gyors feltérképezésére, hogy már a fejlesztés korai szakaszában azonosíthassák a potenciális problémákat.

Az eszközt már használják neves kutatói közösségek és intézetek, mint például az Anthropic Fellows program vagy a UK AI Security Institute. A teljes technikai dokumentáció és a forráskód elérhető a Petri GitHub oldalán, melyhez minden érdeklődőt szeretettel várnak.

Összegzés

A Petri új korszakot nyithat az AI-rendszerek biztonsági auditálásában azáltal, hogy automatizált módon képes gyorsan és széleskörűen vizsgálni a modellek viselkedését. Ez a nyílt forráskódú eszköz megkönnyíti a kutatók számára, hogy azonosítsák és mélyebben elemezzék a nem kívánatos vagy kockázatos viselkedési mintákat, így hozzájárulva a mesterséges intelligencia megbízhatóbb és biztonságosabb alkalmazásához. Ahogy az AI rendszerek egyre komplexebbé válnak, a Petrihez hasonló eszközök nélkülözhetetlenek lesznek a jövőben.

Forrás és további információk: [Petri GitHub](https://github.com/safety-research/petri)

Forrás: az eredeti angol cikk itt olvasható