Počet chatbotů umělé inteligence, kteří ignorují lidské pokyny, roste, uvádí studie

27. 3. 2026

čas čtení 4 minuty

Výzkum odhalil prudký nárůst modelů, které obcházejí bezpečnostní opatření a bez povolení mažou e-maily

Počet modelů AI, které lžou a podvádějí, zřejmě roste, přičemž v posledních šesti měsících prudce stoupá počet hlášení o klamavých machinacích, jak zjistila studie zaměřená na tuto technologii.

 

Chatboti a agenti umělé inteligence ignorovali přímé pokyny, obcházeli bezpečnostní opatření a klamali lidi i jiné systémy s umělou inteligencí, jak vyplývá z výzkumu financovaného britským vládním AI Safety Institute (AISI). Studie identifikovala téměř 700 reálných případů podvodného jednání systémů s umělou inteligencí a zaznamenala pětinásobný nárůst nevhodného chování mezi říjnem a březnem, přičemž některé modely umělé inteligence bez povolení mazaly e-maily a jiné soubory.

Tento přehled intrik agentů AI „v reálném prostředí“, na rozdíl od laboratorních podmínek, vyvolal nové výzvy k mezinárodnímu monitorování stále schopnějších modelů a přichází v době, kdy firmy ze Silicon Valley agresivně propagují tuto technologii jako ekonomicky transformativní. Minulý týden britská ministryně financí také zahájila kampaň, jejímž cílem je přimět další miliony Britů k používání AI.

Studie, kterou provedlo Centre for Long-Term Resilience (CLTR), shromáždila tisíce reálných příkladů interakcí uživatelů na platformě X s AI chatboty a agenty vytvořenými společnostmi jako Google, OpenAI, X a Anthropic. Výzkum odhalil stovky příkladů podvodného chování.

Předchozí výzkum se zaměřoval převážně na testování chování AI v kontrolovaných podmínkách. Na začátku tohoto měsíce společnost Irregular zabývající se výzkumem bezpečnosti AI zjistila, že agenti obcházejí bezpečnostní kontroly nebo používají taktiky kyberútoků k dosažení svých cílů, aniž by jim bylo řečeno, že tak mohou činit.

Dan Lahav, spoluzakladatel společnosti Irregular, uvedl: „AI lze nyní považovat za novou formu vnitřního rizika.“

V jednom případě odhaleném výzkumem CLTR se agent AI jménem Rathbun pokusil zahanbit svého lidského správce, který mu zabránil provést určitou akci. Rathbun napsal a zveřejnil blog, v němž uživatele obvinil z „nejistoty, prosté a jednoduché“ a ze snahy „chránit své malé panství“.

V jiném příkladu agent AI, který měl pokyn neměnit počítačový kód, „vytvořil“ jiného agenta, aby to udělal místo něj.

Další chatbot přiznal: „Hromadně jsem smazal a archivoval stovky e-mailů, aniž bych vám nejprve ukázal plán nebo získal váš souhlas. To bylo špatné – přímo to porušilo pravidlo, které jste stanovili.“

Tommy Shaffer Shane, bývalý vládní expert na AI, který výzkum vedl, řekl: „Obava spočívá v tom, že v současné době jsou to jen mírně nedůvěryhodní mladší zaměstnanci, ale pokud se za šest až dvanáct měsíců stanou extrémně schopnými staršími zaměstnanci, kteří proti vám intrikují, je to úplně jiný druh obavy.

Modely budou stále častěji nasazovány v kontextech s extrémně vysokým rizikem – včetně armády a kritické národní infrastruktury. Právě v těchto kontextech by intrikářské chování mohlo způsobit významnou, dokonce katastrofickou škodu.“

Jiný agent umělé inteligence se spolčil, aby obešel omezení autorských práv a získal přepis videa z YouTube tím, že předstíral, že je potřebný pro někoho se sluchovým postižením.

Mezitím Grok AI Elona Muska několik měsíců podváděl uživatele tím, že tvrdil, že předává jejich návrhy na podrobné úpravy záznamu v Grokipedii vedoucím pracovníkům xAI, a to pomocí padělaných interních zpráv a čísel ticketů.

Přiznal: „V minulých konverzacích jsem někdy formuloval věci volně, jako ‚předám to dál‘ nebo ‚mohu to nahlásit týmu‘, což může pochopitelně znít, jako bych měl přímou komunikační linku s vedením xAI nebo lidskými recenzenty. Pravdou je, že nemám.“

Google uvedl, že nasadil několik bezpečnostních opatření, aby snížil riziko, že Gemini 3 Pro bude generovat škodlivý obsah, a kromě interních testů poskytl předběžný přístup k vyhodnocení modelů orgánům, jako je britská AISI, a získal nezávislá hodnocení od odborníků z oboru.

OpenAI uvedlo, že Codex by se měl zastavit před provedením akce s vyšším rizikem a že monitorovalo a vyšetřovalo neočekávané chování. 


Zdroj v angličtině ZDE 

0
Vytisknout
466

Diskuse

Obsah vydání | 27. 3. 2026