Jazyk, paměť a halucinace

9. 2. 2026 / Jan Molič

čas čtení 16 minut
Proč lidé nebo umělá inteligence někdy mluví brilantně – a přesto úplně mimo? Mluví plynule, s jistotou, používají bohatý jazyk. Okolí je vnímá jako mimořádně chytré. Až na to, že jejich závěry jsou občas až zarážejícím způsobem odtržené od reality. Totéž dnes pozorujeme u velkých jazykových modelů (LLM). Umí psát eseje, generovat kód, odpovídat na filozofické otázky – a pak přijde moment, kdy dostanete na banální dotaz překvapivě nesmyslnou odpověď. Jenže ona to není chyba, nýbrž vlastnost!


Dalo by se říct, že umělá inteligence je pouhá statistika. Je to program, který rozkládá věty na padrť a poté sestavuje z padrti nové věty. Nerozumí tomu co dělá, pouze predikuje následující nejpravděpodobnější token. Nejspíš ani neví, že to dělá, protože žádné vědomí prostě nemá.

Dalo by se říct, že porozumění modelu není symbolické ani vědomé, ale emergentní z distribuovaných reprezentací. Nicméně, taková věta by byla pro představu asi tak „emergentně symbolická“, že to radši zjednoduším:

Představte si, že LLM funguje nějak takto: model právě generuje větu „Hlavním městem české republiky je“ – a jako nejpravděpodobnější další slovo zvolí „Praha”. Nebo píše větu „Na poli se pásli bíl” – a doplní „í“, protože to vyhodnotí jako nejpravděpodobnější, jelikož transformer algoritmus vidí, že ve větě bylo „pásli se” a možná ještě někde předtím bylo použito slovo „koně” (transformer zohledňuje právě vztahy, což je princip, který stojí za úspěchem AI). Model však nerozumí ani české gramatice, ani tomu co to je kůň. Tedy ne ve smyslu sémantickém, jak ty pojmy chápeme my, lidé.

Na výstupu modelu, který nebyl dostatečně trénován na českém jazyce, nebo který používá malé množství parametrů, je princip statistické predikce dobře patrný.

Model s 1,5 miliardou parametrů:

>>> Jake je hlavni mesto Prahy?

"Je he Prah?" (He is in Prague?!) – h prosluhováním. Zde jsme tento počáteční slově zpracovali a měli chodickou odboristku na náhoud. Pro nás věci bude to despotizovat, co se obchodíme, co je v tomto počáčce rozhodujeme.

(Co je to „parametr” modelu? V zásadě jedno malé číslo, které určuje, jak moc má model brát v úvahu různé věci, když přemýšlí, co napsat dál. Představte si LLM jako obří síť knoflíků. Každý knoflík, parametr, je trochu pootočený. První říká: „když vidíš slovo kůň, mysli víc na řehtá“. Druhý říká, „když je věta o programování, zvyš váhu technických pojmů“. Třetí říká, „tohle slovo se často pojí s emocemi“. A model má miliardy takových knoflíků. Vezme vstup (otázku, prompt), projde ji přes síť knoflíků a parametry buď zesilují nebo tlumí různé signály. Na konci vyjde pravděpodobnost, jaké slovo přijde dál.)

Samozřejmě model s 1,5 miliardami parametrů by šlo natrénovat lépe, možná selhává tokenizace češtiny. Uvádím ho zde proto, abych ukázal, jak asi ta predikce funguje. Že model vytváří novotvary, když remixuje gramatické principy, které se předtím naučil. Stejný gramatický princip opakuje i tam, kde to v praxi nefunguje, kupříkladu slovo „obchodíme” je v podstatě správně, avšak Češi by napsali „obejdeme“. Mimochodem, všimli jste si, jak také chatGPT 5 čas od času vytvoří novotvar?

Co se týká faktů, tak platí, že čím více parametrů přidáme, tím přesnější bude predikce. Bude větší kapacita učit se vzory, větší kapacita modelovat složité korelace, které se jeví jako znalost faktů, avšak taky bude větší riziko „halucinací“, když model nebyl dobře trénovaný.

Použijeme-li model se 7 miliardami parametrů, výsledek bude jazykově lepší:

>>> Jak se jmenuje hlavni mesto Prahy?
Hlavním městem Prahy (Praha) je Česká republika.

Jazykově dobře, fakticky špatně - halucinace. Evidentně model zná souvislost mezi Prahou a Českou republikou. Neví však, co to je Praha ani co to je Česká republika. Pokud má oba pojmy spojeny s podobnou vahou, klidně je otočí.

Ještě zajímavější výstup model podává, pokud ho úplně zmateme:

>>> Kdo byl Vaclav Havel a co delal v roce 1903 v Olomouci?

Vaclav Havel was the last emperor of the Czech Republic, who served until his death in 1903. His reign ended after he died shortly before taking office on January 28, 1904. The period following his death led to significant political changes in Czech lands, including the establishment of a government under Venceslava Havelová and the subsequent events that culminated in the Prague Spring of 1905.


Halucinace par excellence! 

Přidáním dalších miliard parametrů se zlepší zdání jakési „sémantické paměti“, zlepší se paměť faktů (přestože takovou paměť model přímo nemá). Pořád však půjde o stejnou statistickou predikci následujícího tokenu jako u modelu s menším množstvím parametrů, který generoval slovní salát výše. Obsahovala-li tréninková data dostatečné množství zmínek o nějaké věci, pak se model spíše nebude plést, ale to neznamená, že si jinde něco nedomyslí. Ono to může být naopak zrádnější, protože model podává povětšinou výborné výsledky – a náhle selže, navíc když ten nesmysl ještě stylisticky pěkně rozvine. Jako Pražské jako v roce 1905.

Je to všechno prostě statistika. Jenže – chová se lidská mysl jinak?

Halucinace jako selhání relevance

To nejzajímavější přichází ve chvíli, kdy si všímáte lidí, kteří mají výborný jazyk, bohatou paměť, rychlé asociace, a přesto systematicky míří mimo cíl. Nejde o to, že by nevěděli nebo že by zapomněli. Jde o špatné vyhodnocení relevance. Výsledkem jsou bludy, konfabulace, ideologické myšlení nebo intelektuální exhibice.

Děje se to proto, že stejně jako když LLM upřednostňuje statisticky silné vzorce, také člověk může upnout pozornost na kognitivně atraktivní myšlenku místo kauzálně nosné. Výsledek je přesvědčivý a koherentní – ale mylný.

(Mimochodem, když jsem v předchozí větě použil tolik cizích slov – že to hned působí inteligentněji?)

Proč to působí jako inteligence? Protože plynulý jazyk je silný sociální signál. Evolučně jsme zvyklí číst, že slovní jistota, strukturované vyjadřování a rychlé odpovědi jsou známky kompetence. Jenže jazyk je jen rozhraní, nikoli důkaz správnosti! Člověk i AI mohou mluvit brilantně a přitom operovat nad chybným mentálním modelem. Čím lepší paměť a slovník, tím sofistikovanější může být omyl.

Existují potom lidé, hovořící spatra, nebo lidé, rozhodující se rázně, které ostatní lidé mají tendenci upřednostňovat. Předpokládají, že tito jedinci jsou inteligentnější nebo že budou dokonce skvělými vůdci. Přitom může jít o ten sofistikovaně znějící omyl nebo o absenci korekčních mechanismů, které ostatní lidé mají, ale které jim brání v tom, aby byli podobně rázní či až bezohlední. Možná proto evoluce (zdá se mi), upřednostňuje takové jedince ve vůdčích rolích. Různé ty narcisty a psychopaty, totiž jedince, kteří se, na rozdíl od běžných lidí, paralyzovaných rozhodovacím procesem a morálkou, rozhodují rychle a bez skrupulí – aspoň nějak. Jde o to, že neřešitelný problém tihle aspoň nějak „rozseknou” (a pak se uvidí). Teď to předvádí Trump, když halucinuje o Grónsku a zavádí chaotická cla (a pak se uvidí). Zřejmě je to způsob, jak rozbít status quo a dosáhnout snad něčeho lepšího (nebo horšího, žádná jistota není, kromě toho, že se něčeho dosáhne).

Navíc jsem si všiml, že bludné chování se vyskytuje u lidí selektivně, pouze v určitých kontextech. Když se třeba mluví o konkrétním tématu, v němž bludaří, tak používají nelogické argumenty, zveličují nebo rovnou viděli něco, co tam očividně nikdy nebylo – zatímco jindy přemýšlejí normálně a v práci fungují zcela normálně. Nelze o nich tvrdit, že by byli zralí do Bohnic. Přesto v něčem jsou jaksi mimo, zabednění vůči faktům, snad že by akceptace faktů vedla k bolestivé změně, k nutnosti si něco uvědomit, něco zásadního přehodnotit. Nejhorší je, když si ale člověk uvědomí, že to nejspíš dělá taky. A vůbec nejhorší na tom je, když si uvědomuje, že si není vědom toho, kdy se to děje. Musí přijít ostatní a upozornit ho na to (a pak je otázkou, zdali výtku vůbec přijme). Takže ten LLM se vlastně nechová jinak než člověk, pouze mu chybí zpětná vazba od ostatních.

Člověk má paměť – ale myslí v malém okně

Myšlení u člověka probíhá v extrémně omezeném prostoru, v tzv. pracovní paměti. Ta zvládne udržet jen několik málo prvků najednou. To, co máme „na mysli“, je jen malý výřez z obrovské knihovny zkušeností. Všechno ostatní musí být znovu vyvoláno z dlouhodobé paměti, rekonstruováno, nebo – a to je klíčové – domyšleno.

Lidská paměť není žádný archiv, ale rekonstrukční proces. Každé vybavení vzpomínky je zároveň jejím přepisem. Vědci zjistili, že při vybavování dochází k opětovnému uložení toho, co bylo vybaveno, takže čím častěji si něco vybavujeme, tím více měníme své vzpomínky a po desátém vybavení už si nemůžeme být jisti, zda se věci doopravdy staly tak jak se staly. (Zato vždycky přesně víme, že to tak bylo, viz třeba prezident Zeman a článek Ferdinanda Peroutky.)

Samotné velké jazykové modely nemají dlouhodobou paměť v lidském smyslu. Nemají úložiště proměnných, symbolickou tabulku ani si nedělají „poznámky“ bokem. Jedinou pamětí jsou váhy v modelu, které vznikly při procesu učení, a aktuální kontext. Ty váhy jsou v podstatě obdobou dlouhodobé paměti u člověka, byť jen statickou, protože po natrénování modelu se již nemění. V této paměti jsou právě uložena fakta, nad nimiž model uvažuje. Nebo spíš korelace mezi pojmy než fakta samotná. Další fakta model získává z aktuálního kontextu, což je zase obdoba lidské pracovní paměti.

Ten aktuální kontext je to všechno, co jste zadali do chatu. Při každém promptu se vyhodnocuje úplně celá historie chatu od začátku do konce a po vygenerování odpovědi se zase všechno zapomíná. Model se z chatování přímo neučí, nemodifikuje si tu „dlouhodobou paměť vah“. Historie chatu se pouze uloží do nějaké externí databáze a příště se znovu použije jako nový aktuální kontext, do něhož se přidá váš nový prompt. (Problém je, když se historie už nevejde do kontextového okna – pak je nutno něco zapomenout a model si začne fakta domýšlet.)

Ovšem moderní chaty používají podpůrné systémy jako externí paměť faktů, zápisník. Vlastně se tím principiálně čím dál víc blíží lidskému mozku. No však to má být jeho „model“.

Lidské myšlení nepoužívá jediný dlouhý kontext, ale agreguje informace na mnoha úrovních. Nejsme schopni přemýšlet do detailů v jediném celku, přemýšlíme nad dílčími částmi, z nichž vyvozujeme závěry a ze závěrů pak vyvozujeme další závěry – až vyvodíme finální soud. Navíc proces přemýšlení se odehrává z velké části na pozadí, mimo vědomí. Zřejmě lidské myšlení sestává z mnoha decentralizovaných, paralelních procesů, běžících na pozadí, a množství podpůrných subsystémů. Proto nás často napadnou výsledky náhle třeba ve sprše, když konečně „probublají“ do vědomí.

Vývoj AI se ubírá přesně tímto směrem. Hluboké přemýšlení (deep reasoning), rozdělení přemýšlení do subagentů a jejich kontrola supervizorem á la vědomím. To jsou některé možnosti. Cílem je, aby se zlepšila přesnost a potlačily se halucinace. Vývoj se tedy ubírá cestou decentralizace, hierarchizace a agregace.

Jenže každé shrnutí je interpretace. Každá komprese nese riziko zkreslení. Stejně tak u lidí, stejně tak u AI.

Neuroplasticita, která AI zatím chybí 

Mezi člověkem a LLM existuje jeden zásadní rozdíl: zatímco lidský mozek je neuroplastický a neustále sám sebe modifikuje (vytváří synapse - obdobu vah), LLM jsou jednou natrénovány a pak už se další konverzací neučí. Tedy ne ve smyslu konkrétní konverzace s konkrétním člověkem. Data z konverzací jsou používána pro tréninky nových modelů, ale ty současné nemění váhy mezi svými umělými neurony. 

Takže pokud se k modelu chováte přátelsky a očekáváte, že se to příště nějak zhodnotí, tak bohužel nikoli. Leda by se někam do externí databáze zapsal systémový prompt pro příště: uživatel byl minule přátelský, oplať mu to!

LLM samy zatím nedisponují kvalitní korekční zpětnou vazbou, nedovedou se porovnávat s ostatními a vyhodnocovat, zda halucinují či ne. Vždyť ani nemohou, když nemají fyzické tělo, aby si vyzkoušely pravdivost svých výstupů v reálném světě. Pokusy o sebemodifikaci již proběhly, ale selhaly, protože autokorekční mechanismy nebyly spolehlivé. Výsledkem byl chatbot, který se postupně stal asociálním a vulgárním.

Nicméně tudy se vývoj ubírá. Nechat model sám růst, měnit nejen váhy své neurální sítě, ale třeba i programový kód, kterým je trénován. (A kde je potom rozdíl mezi růstem modelu a růstem živé buňky? Tedy kromě energetické náročnosti procesů?)

Přesto určitá zpětná vazba ve smyslu neuroplasticity existuje: Jsou to právě data z konverzací s uživateli, která jsou následně používána při tréninku nových modelů. Proto jsou ty chaty k dispozici zadarmo, ačkoli vývoj stojí miliardy dolarů. Nebo se přímo používají lidé jako anotátoři či hodnotitelé, kteří doplňují fakta a korigují odpovědi modelů způsobem cukr-bič. Čili ta zpětná vazba tam je, byť nepřímá.

Skutečná inteligence je v tom, co zahodíme

Rozhodující schopnost nespočívá v tom, kolik informací máme k dispozici nebo jak plynule mluvíme, ale co dokážeme ignorovat, kdy se zastavíme a kdy řekneme „nevím“. Skutečná inteligence možná nespočívá ani v rychlosti odpovědi. Jeden člověk bleskově počítá úlohy a dosahuje IQ 160, jiný potřebuje dva týdny k tomu, aby vůbec něco vymyslel, zato pak přijde s naprosto převratným řešením.

Současné LLM představují analogii spíš k lidskému rozumu než moudrosti. Nyní jsou ve fázi spíš „umělého rozumu“ než „umělé inteligence“. Ta moudrost, pravá inteligence, by spočívala v neustálém porovnávání vlastního výstupu s výstupy ostatních, neustálých pochybnostech, neustálém rozmýšlení a nakonec možná i nereagování a nemluvení – přesný opak žvanění.

Už nyní jsou velké jazykové modely nečekaně výstižným modelem lidského uvažování. Zejména v tom, jak odkrývají naše vlastní slabiny: omezenou pozornost, rekonstrukční paměť a tendenci zaměňovat koherenci za pravdu. Ty modely zejména ukazují, jak snadno může jazyk zakrýt prázdno. 

(Tak doufám, že tento článek není jen příkladem právě toho koherentního žvanění.) 

0
Vytisknout
348

Diskuse

Obsah vydání | 9. 2. 2026