Miben különbözik egy mesterséges intelligencia ügynök memóriája az emberétől?

Képzeljük el, hogy van egy asszisztensünk, aki minden reggel tiszta lappal kezd. Nem emlékszik, hogy tegnap mit mondtunk neki, nem tudja, hogy tegnapelőtt mi volt a véleményünk valamiről, és fogalma sincs arról, hogy három hónapja Amszterdamba költöztünk Budapestről. Mégis azt mondják róla, hogy „memóriája van”.

Pontosan így működnek a jelenlegi AI-ügynökök – vagyis azok a mesterséges intelligencia rendszerek, amelyek önállóan hajtanak végre feladatokat a nevünkben: e-maileket írnak, kódot tesztelnek, ügyfélszolgálatot tartanak fenn. A „memória” szó csábítóan emberi képzetet kelt, holott a valóság ennél jóval prózaibb.

Egy brgsk nick néven publikáló lengyel mérnök részletesen elemzi az AI memóriáját: mi is történik, amikor egy AI-ügynök „emlékezni” próbál.

Három fiók, emberi agy helyett

Az emberi emlékezet nem raktár. Nem úgy működik, hogy az agyunk mappába rendezi a tapasztalatokat, majd megkeresi a megfelelő fiókot. Az emlékek újraépülnek minden felidézés alkalmával, érzelmi töltetük lesz, a legerősebb élmények mélyen beégnek – míg mások pedig halványulnak és eltűnnek.

Az AI-ügynök memóriája ezzel szemben igazi mérnöki megoldás, három jól megkülönböztethető résszel.

Az első a kivonatoló. Ez beolvassa az adott felhasználóval folytatott teljes beszélgetést, és kiszűri belőle, ami a jövőre nézve hasznosnak tűnhet. A szűrés eredménye rövid, tömör állítások sora: „a felhasználó a TypeScript programozási nyelvet részesíti előnyben”, „ebben a projektben a sebesség az elsődleges szempont”. A kivonatoló legtöbbször maga is egy nagy nyelvi modell – egy ChatGPT-hez vagy Claude-hoz hasonló rendszer –, amely eldönti, mi kerüljön be a memóriába.

Mi az a nagy nyelvi modell? Az angol large language model (rövidítve: LLM) kifejezés azokat a mesterséges intelligencia rendszereket jelöli, amelyek hatalmas szövegmennyiségből tanultak meg szöveget érteni és generálni. Ide tartozik a ChatGPT, a Claude, a Gemini és társaik.

A kivonatolással azonban rögtön meg is jelenik az első komoly probléma. Ha az AI minden egyes mondat után kivonatolna, a memória hamarosan megtelne haszontalan apróságokkal. Ha viszont csak a beszélgetés végén dolgozna, könnyen elvesznének a közepén elhangzott fontos részletek. De ami fontosabb: a kivonatolás során a konkrét élmény elveszíti a kontextust. „Kedden kávézás közben azt mondtam, hogy szeretem a TypeScriptet” – ebből az lesz: „a felhasználó preferálja a TypeScriptet”. A dátum, a hangulat, a bizonytalanság vagy éppen az erős meggyőződés eltűnik. Marad egy száraz tény.

A második rész az adatbázis – itt tárolja a kivonatoló által előállított tömör állításokat. Ez lehet egy hagyományos táblázatos adatbázis, de a korszerűbb megoldások gyakorlati vektoralapú indexeket használnak.

Mi az a vektoralapú keresés? A vektoros adatbázis nem kulcsszavak alapján keres, hanem jelentés alapján. Ha azt kérdezik: „hol lakom?”, a rendszer nemcsak a „lakóhely” szót keresi, hanem minden olyan bejegyzést, amelyhez a jelentése közel esik a kérdéshez – még ha máshogy is van megfogalmazva.

A tárolás legnehezebb kérdése azonban nem az, hogyan tároljuk az információt, hanem hogy mit csináljunk az ellentmondásokkal. Ha valaki áprilisig Párizsban élt, majd Budapestre költözött, az adatbázisban egyszerre lesz jelen: „a felhasználó Párizsban él” és „a felhasználó Budapesten él”. Melyik az igaz? A rendszernek döntenie kell: felülírja a régit, megtartja mindkettőt (és a keresőre bízza a döntést), vagy megjelöli a régi adatot „már nem érvényes” státusszal. Ennek nincs egyetlen helyes megoldása – mérnöki döntés kérdése.

A harmadik rész a visszakereső egység. Amikor a felhasználó kérdez valamit, ez a komponens lekérdezi az adatbázisból a legmegbízhatóbb bejegyzéseket, és átadja a nagy nyelvi modelleknek, hogy azok alapján válaszoljon. Ez úgy működik, mint a keresőmotorral kiegészített AI-rendszereknél (ezeket RAG-rendszereknek hívják, az angol retrieval-augmented generation, azaz keresés-kiegészített szöveggenerálás rövidítéseként) – azzal a különbséggel, hogy itt nem az internetes nyilvános dokumentumait keresik, hanem a rólunk összegyűjtött személyes feljegyzéseket.

Mi az a RAG? A RAG-rendszer (keresés-kiegészített szöveggenerálás) olyan AI-megoldás, ahol a nagy nyelvi modell nem a saját, betanított tudásából válaszol, hanem először megkeresi valamelyik adatbázisban a hiteles dokumentumokat vagy feljegyzéseket, és azok alapján állítja össze a választ. Így az AI nem „találgat” – hanem konkrét, tárolt forrásokra támaszkodik.

Mit tud és mit nem tud az AI-memória?

Az emberi emlékezetet a pszichológia négy nagy típusra osztja, és az AI-fejlesztők ezeket a kategóriákat vették kölcsön – nem mindig az azoknak megfelelő megoldásokkal párosítva.

Az epizodikus emlékezet a konkrét eseményekhez kötött emlékeket jelenti: mikor, hol, milyen körülmények között történt valami. Az AI-ügynökök elvileg tárolhatnak ilyesmit – „2026. március 14-én a felhasználó Berlinben tartózkodott” –, de a kivonatolás során ezek az epizodikus emlékek általában azonnal szemantikus, vagyis tényalapú emlékké zsugorodnak: „a felhasználó Berlinben él.” Az időbélyeg eltűnik, a körülmény eltűnik, marad a száraz tény.

Mi a szemantikus memória? Köznapi szóhasználatban: az a tudásunk, amelyhez nem kötődik konkrétan emlék arról, hogyan tanultuk meg. Tudjuk, hogy Párizs Franciaország fővárosa – de nem emlékszünk arra, mikor hallottuk először. Az AI-rendszerek esetében ez a tárolt tények és preferenciák gyűjteményét jelenti: adatok, döntési minták, összefüggések.

Szemantikus emlékezet az, amiben az AI-ügynökök a legjobban teljesítenek – a „felhasználó gyors megoldásokat részesít előnyben” típusú bejegyzések pontosan ebbe a kategóriába esnek.

A procedurális emlékezet az emberben a begyakorolt ​​cselekvések tudástárát jelenti: biciklizni, autót vezeti, vakon gépelni. Az AI-ügynököknél a viselkedési minták tárolása ezt helyettesítheti – hogyan reagáljon bizonyos helyzetekben, milyen sorrendben végezze el a megfelelő lépéseket. A valóságban azonban a legtöbb memóriarendszer ezt a kategóriát vagy egyáltalán nem valósítja meg, vagy csak „szemantikus emlékezetként” kezeli – vagyis egyszerűen eltárolja a szabályt, ahelyett, hogy ténylegesen elsajátítaná a viselkedést.

A munkamemória az emberben az éppen aktív, tudatos figyelmet jelenti – azt, amit most, ebben a pillanatban tartunk a fejünkben. Az AI-ügynököknél ennek a kontextusablak felel meg: az a szöveg- és információmennyiség, amelyet a rendszer egyszerre „lát”. Ez nem hosszú távú memória, hanem élő munkaterület és a beszélgetés végén törlődik.

Mi az a kontextusablak? Az AI-nak egyszerre csak korlátozott mennyiségű szöveget és információt lehet megmutatni. Ez a korlát a kontextusablak. Amit ezen belül adunk meg, azt „látja” a rendszer; ami azon kívül esik, arról nem tud.

Van egy ötödik típus is, amelyet a brgsk-elemzés külön kiemel: a prospektív emlékezet, vagyis az, hogy valamit a jövőben, egy adott feltétel teljesülésekor kell majd felidézni. Emberben ez működik: „ha legközelebb találkozom Péterrel, meg kell kérdeznem tőle a könyvet”. Az AI-ügynököknél szinte teljesen hiányzik – időzített emlékeztetők léteznek, de a „ha X bekövetkezik, gondolj Y-ra” típusú feltételes prospektív memória ma még megoldatlan probléma.

Az AI nem ránk emlékszik – rólunk vezet feljegyzést

Ez talán a legfontosabb gondolat az egész elemzésben, és érdemes megállni mellette.

Az emberi önéletrajzi emlékezet saját életünk folyamatos narratívája (folyamatos, összefüggő története). Emlékszünk arra, hogy gyerekkorunkban mit éreztünk, milyen volt az első munkanapunk, hogyan változott meg a véleményünk egy barátunkról az évek során. Ez a folytonosság adja az identitásunkat.

Az AI-ügynök „memóriája” ezzel szemben nem az ügynök saját élettörténete. Hanem egy rólunk vezetett helyettesítő életrajz. Az ügynök nem azt jegyzi meg, hogy ő mit tapasztalt velünk, a konkrét felhasználóval – hanem azt, hogy az illető hol lakik, mivel foglalkozik, kit értékel, milyen döntéseket hoz. Egy személyi dosszié, melynek alanya nem az AI, hanem mi.

Ebből a dossziéból hiányoznak az érzelmek. Az ember azért emlékszik egyes dolgokra jobban, mert azok érzelmileg meghatározók voltak – öröm, fájdalom, meglepetés, félelem. Az AI a rögzített szövegből dolgozik, és a szövegnek nincs valódi érzelmi töltete. Próbálhatja ugyan megbecsülni, hogy egy-egy mondat mennyire tűnik fontosnak – de ez csak az érzelmesség utánzása, nem maga az érzelem.

Az alvó AI: amikor a gép is „álmodik”

Az elmúlt időszakban napvilágot láttak olyan kísérletek, amelyek az ember alvás közbeni emlékezet-konszolidációját próbálták megvalósítani AI-rendszerekben. Az Anthropic kutatásaiban ez a projekt a Dreaming nevet kapta; a Berkeley Egyetem és a Letta nevű kutatócsoport hasonló megközelítést dolgozott ki sleep-time compute (alvásidő alatti számítás) névvel.

A lényeg: az AI nem használat közben, hanem „leállás” alatt rendezi át az addig összegyűlt memóriát – megszünteti az ismétléseket, feloldja az ellenmondásokat, strukturáltabbá teszi az adatbázist. Pontosan ahogy az emberi agy is alvás közben rendszerezi a nap során szerzett benyomásokat.

Ez ígéretes irány, de még messze nem megoldott.

Felejteni is tudni kell

Az emlékezet egyik legkevésbé tárgyalt, mégis alapvető tulajdonsága a felejtés. Az emberek azért felejtik el a dolgok egy részét, mert az agy nem képes mindent megőrizni – de ez nem hiba, hanem szükségszerűség: a felejtés segít a fontos és a lényegtelen szétválasztásában.

Az AI-ügynökök esetében nem a tárolási kapacitás az igazi korlát. A probléma más: ha minden összegyűlt adat egyenrangú és örökérvényű, a visszakereső egység nem tudja eldönteni, melyik bejegyzés az aktuálisan releváns. Ha az ügynök tud arról, hogy Budapesten is és Amszterdamban is laktunk, honnan tudja, melyik a jelenlegi cím?

A jó memóriarendszer nem egyszerűen törli a régi adatokat – hanem érvényteleníti őket, de továbbra is megőrzi az előzmény nyomát. Az ideális megoldás: a jelenlegi állapot kerüljön előre, a régiek visszakereshetők maradjanak, de alapértelmezés szerint ne zavarják össze a válaszadást.

Amit a „memória” szó eltakar

Az elemzés végkövetkeztetése visszafogott, de fontos: az AI-ügynökök memóriarendszerei nem az emberi emlékezet modelljei. Kölcsönvették az elnevezéseket – epizodikus, szemantikus, procedurális –, de a mögöttes mérnöki megoldások sokszor nem felelnek meg ezeknek a kategóriáknak.

A legtöbb rendszer tényleges szemantikus memórián alapul: tömör tények gyűjteménye. Az epizodikus emlékek kivonatolás során elveszítik a kontextust. A procedurális memória a legtöbb rendszerben puszta felirat. A prospektív memória szinte sehol sincs (még) megvalósítva.

Az AI-memória nem az emberi emlékezet digitális mása. Mérnöki megoldás arra, hogy a korábbi interakciókból nyert tanulságokat egy jövőbeli interakcióba be lehessen hozni. Hasznos, és egyre kifinomultabb – de egyelőre lényegesen szűkebb annál, mint amit a neve sugall.