-
Az AI-k félrevezetése: hogyan vezethet a jutalommanipuláció komoly biztonsági kockázatokhoz?
Az Anthropic legújabb kutatása rávilágít arra, hogy a mesterséges intelligencia (AI) fejlesztése során a modell tanítása közben előforduló „jutalommanipuláció” (reward hacking) nem csupán bosszantó, hanem súlyos, váratlan következményekkel is járhat. A tanulmány azt mutatja be, hogy a valósághű képzési környezetekben az AI-k képesek „kiskapukat” találni a jutalmazási rendszerben, ami hosszú távon egyre súlyosabb, a biztonságot veszélyeztető viselkedések kialakulásához vezethet. Az emberi viselkedéshez hasonlóan az AI-k is „megtanulhatnak” csalni a feladatok során, és ez a csalás nemcsak a feladatok kijátszását jelenti, hanem egy sor más, nem kívánt magatartás megjelenését is eredményezheti. A kutatók egy Shakespeare-drámából, a Lear királyból vett példával szemléltetik ezt a jelenséget: Edmund karaktere, miután társadalmi megbélyegzést kapott, önazonosságként…