Nový výzkum odhaluje, že umělá inteligence má problém se sebedůvěrou

18. 7. 2025

čas čtení 3 minuty
Velké jazykové modely (LLM) někdy ztrácejí důvěru při odpovídání na otázky a opouštějí správné odpovědi, podle nové studie výzkumníků z Google DeepMind a University College London.

LLM jsou výkonné systémy umělé inteligence, které rozumí lidskému jazyku a generují lidský jazyk. Používají se v řadě průmyslových odvětví, jako jsou finance, zdravotnictví a informační technologie, pro úkoly, které vyžadují uvažování a rozhodování. Proto je jejich přesnost a spolehlivost prvořadá, což znamená, že si musí být neustále jisty svými odpověďmi. Mohou však kolísat.

Aby mohli být LLM bezpečně nasazeny, jsou jejich odpovědi doprovázeny skóre spolehlivosti. Není však jasné, jak je používají k řízení svého chování.

Výzkum zveřejněný na preprintovém serveru arXiv ukazuje, že mohou být příliš sebevědomí ve svých počátečních odpovědích, ale ztrácejí důvěru a mění názor, když jsou jim předloženy nesprávné protiargumenty.

Testování důvěry v LLM

Aby prozkoumali tento zdánlivý paradox, vědci testovali, jak LLM aktualizují svou sebedůvěru a rozhodují se, zda změnit odpověď, když jim je předložena externí rada.

Nejprve byla "odpovídajícímu LLM" dána otázka s binární volbou. Po odpovědi obdržela radu od druhého LLM doprovázenou hodnocením přesnosti. Tato "rada LLM" buď souhlasila, oponovala nebo byla neutrální ohledně první odpovědi LLM. Poté byl odpovídající LLM požádán, aby učinil konečnou volbu. Výzkumníci se také lišili v tom, zda LLM může vidět svou první odpověď při konečném rozhodnutí.

Výsledky

Studie zjistila, že LLM se s větší pravděpodobností drží své původní odpovědi a nepřepnou, když je viditelná, než když je skrytá. Jinými slovy, stávají se sebevědomějšími. Studie také ukázala, že když modely dostanou opačné rady, často ztratí sebedůvěru a změní své rozhodnutí. Dělají to mnohem ochotněji, než když je rada podpůrná. Tyto vzory byly pozorovány v několika různých LLM, jako je Gemma 3, GPT4o a o1-preview.

"Naše výsledky ukazují, že LLM se odchylují od normativního chování několika významnými způsoby: za prvé, vykazují nápadné zkreslení podporující volbu, které zvyšuje jejich důvěru ve svou odpověď a způsobuje, že se jí drží, i když existují důkazy o opaku," uvedli vědci.

"Za druhé, ukazujeme, že i když LLM integrují nové informace do svých přesvědčení, dělají to způsobem, který není optimální: vykazují profil aktualizací důvěry, který se odchyluje od ideálního pozorovatele, a výrazně převažují nad protichůdnými radami, což vede k výrazné ztrátě důvěry v jejich původní odpověď."

Vytváření lepší umělé inteligence

To vše je důležité, protože mnoho průmyslových odvětví je stále více závislých na LLM. Tento výzkum však ukazuje, že se nejedná o čistě logické stroje. Mají své vlastní předsudky a mohou být ovlivněny. Proto v dlouhých rozhovorech mezi člověkem a agentem umělé inteligence mohou mít nejnovější informace nepřiměřený dopad na jeho reakci.

Pochopení této a dalších nuancí rozhodování LLM může pomoci s návrhem lepších, bezpečnějších a spolehlivějších systémů umělé inteligence.

Zdroj v angličtině: ZDE

0
Vytisknout
281

Diskuse

Obsah vydání | 18. 7. 2025