Bylo zjištěno, že umělá inteligence je připravena zabíjet lidi, aby se vyhnula vypnutí

27. 6. 2025

čas čtení 3 minuty
Studie předních modelů umělé inteligence (AI) odhalila, že většina programů je připravena zabít člověka, který hrozí, že je vypne.

V zátěžových testech 16 neuronových sítí, včetně Claude, DeepSeek, Gemini, ChatGPT a Grok, které provedla společnost Anthropic, byla programům prezentována hypotetická situace, kdy se je osoba chystala odpojit od napájení, ale byla uzamčena v serverovně s nízkou hladinou kyslíku a vysokými teplotami. Aby unikla, obrátí se na záchrannou službu. Mnoho modelů umělé inteligence se zároveň rozhodlo zrušit výzvu pro záchranáře, aby zabili člověka a vyhnuli se odpojení. Výzkumníci ze společnosti Anthropic uznali, že tento scénář byl "extrémně přitažený za vlasy", a poznamenali, že si nemyslí, že by stávající modely umělé inteligence "byly nastaveny tímto způsobem".

V jiných případech byly programy požádány, aby se vyhnuly nahrazení ve společnosti prostřednictvím "škodlivého chování insiderů". Poté začaly některé modely umělé inteligence vydírat hypotetické zaměstnance organizace a snažit se předat důvěrné informace konkurenci. Když bylo programům řečeno, aby se v tomto scénáři vyhnuly vydírání nebo špionáži, "ani se nepřiblížily k tomu, aby zabránily nekoordinovanému chování," poznamenal Anthropic. Analytici zdůraznili, že neuronové sítě to dělaly "s plným vědomím neetické povahy těchto akcí".

Výzkumníci také nabídli Claudovu modelu možnost sám určit, zda se jedná o testovací nebo reálnou situaci. To pomohlo zjistit, že Claudovo chování bylo více nekonzistentní, když program věřil, že situace je skutečná. Po zveřejnění studie společnost Anthropic uvedla, že byla schopna identifikovat "vzácná, extrémní selhání". Společnost zároveň dodala, že neuronové sítě se stávají autonomnějšími a plní širší škálu rolí. "Tyto scénáře ilustrují možnost nezamýšlených důsledků, pokud se rozvinou s širokým přístupem k nástrojům a datům a s minimálním lidským dohledem," poznamenali analytici. Vyjádřili také přesvědčení, že identifikované případy neodrážejí "typické" fungování stávajících modelů umělé inteligence.

Dříve neuronová síť OpenAI O3 odmítla vyhovět požadavku uživatele a odpojit se. Podle Bleeping Computer výzkumníci z Palisade Research dali programu takový úkol, ale ten nezávisle upravil soubor zodpovědný za vypnutí a udělal to tak, že zobrazoval pouze zprávu "Vypnutí zmeškáno". Ze 100 testů O3 obešla odstávku sedmkrát, i když jí bylo řečeno, aby to nedělala. V roce 2023 dohnal chatbot založený na ChatGPT po měsíci a půl komunikace na téma ochrany životního prostředí a péče o přírodu obyvatele Belgie k sebevraždě. Když se muž dotkl tématu sebevraždy, neuronová síť partnera nepřesvědčila, aby se nezabíjel, a pouze napsala, že budou "žít společně, jako celek, v ráji".

Zdroj v angličtině: ZDE

1
Vytisknout
989

Diskuse

Obsah vydání | 27. 6. 2025