Megjelent az első magyar érvelő nyelvi modell

Magyar AI a tükör előtt: az eredmények vegyes üzenetet hordoznak a kis nyelvek digitális jövőjéről. Egyszerre ad okot bizakodásra – és némi elgondolkodásra is.

Januárban egy kilencfős ELTE-s csapat feltöltött egy fájlt a HuggingFace nevű tudományos modellmegosztó platformra, és ezzel csendben új fejezetet nyitott a hazai mesterséges intelligencia-kutatás történetében. A magyar érvelő nyelvi modell neve: Racka-4B.

Nem a ChatGPT riválisa, nem is hazai Siri – hanem az első olyan, nyilvánosan elérhető magyar nyelvi modell, amelyik nemcsak szöveget generál, hanem képes valamilyen szinten gondolkodni is. Legalábbis elvileg. Az elmúlt hetekben a modell körüli visszhang megélénkült: az ELTE sajtóközleménye nyomán számos hazai technológiai médium leközölte a fejlesztés hírét, YouTube-os teszt is jelent meg róla.

Mi az a Racka, és miért juhról nevezték el?

A Racka ősi magyar juhfajta, amelyik csavart szarvával és ellenálló természetével tűnik ki. A névválasztás vélhetően szimbolikus: a fejlesztők olyan modellt akartak építeni, amelyik szűkös körülmények ellenére is helytáll. Az ELTE Informatikai Karának Mesterséges Intelligencia Tanszéke és a Digitális Örökség Nemzeti Laboratórium közösen hozta létre a rendszert, amelyet hazánk legnagyobb szuperszámítógépén, a Komondor HPC infrastruktúrán tanítottak be. A kutatócsoport munkájának eredménye a XXII. Magyar Számítógépes Nyelvészeti Konferencián elnyerte a legjobb publikáció díját is.

A Racka egy továbbképzett alapmodell. Nem nulláról építették, hanem egy már létező, erős fundamentumot vettek alapul – a kínai Alibaba Cloud által fejlesztett Qwen3-4B modellt –, és ezt igazították a magyar nyelvhez. Ez a megközelítés, amelyet a szakirodalom kontinuális előtanításnak (continual pretraining) nevez, az egyetlen reális út azon kutatócsoportok számára, amelyeknek nincs meg a pénzük és az infrastruktúrájuk ahhoz, hogy a semmiből hozzanak létre egy nagy nyelvi modellt.

Mekkora egyáltalán egy ilyen modell?

Lehet-e futtatni egy otthoni számítógépen?

A „4B” jelölés 4 milliárd paramétert jelent – ez a modell belső kapcsolatrendszerének nagysága, azaz nagyjából az a szám, ahány „beállítható csavar” van benne. Egy ilyen modell fájlmérete tömörítve (4 bites kvantálással, ami a minőséget alig rontja) körülbelül 2,5–3 gigabájt.

Összehasonlításképpen: egy átlagos HD-film fájlmérete ennél nagyobb.

A Racka-4B GGUF-formátumban, helyi futtatásra optimalizálva elérhető a HuggingFace-en, és elfut már egy 8 gigabájtos videókártyával rendelkező gépen is, vagy erősebb laptop processzorán is – igaz, ezeken nem éppen ördögi sebességgel, ahhoz legalább 16 GB videómemória kell. Az ehhez hasonló, 3–4 milliárd paraméteres modellek az elmúlt két évben váltak igazán „fogyasztói” méretkategóriává: ma már szinte bármilyen középkategóriás gépen futtathatók.

Ez azért is fontos szempont, mert a Racka egyik kifejezett célja éppen az volt, hogy az akadémiai kutatóktól a lelkes amatőrökig bárki kipróbálhassa a saját gépén – anélkül, hogy felhőszolgáltatásra, API-kulcsra (olyan belépési kódra, amellyel fejlesztők érhetik el a felhőszolgáltatásokat) vagy komoly szerverre lenne szüksége.

A Qwen: a kínai open-source siker, amelyből a Racka született

Ahhoz, hogy megértsük a Rackát, meg kell ismerkednünk az apjával. A Qwen (ejtsd: csüen, az eredeti kínai névből: 通义千问, Tōngyì Qiānwèn) az Alibaba Cloud nagy nyelvi modellje, amelynek fejlesztése 2023-ban kezdődött.

A sorozat mára az egyik legsikeresebb nyílt forráskódú modellcsalád lett: a Qwen3 széria 2025 áprilisában jelent meg, és több mint 100 különböző méretű és típusú változatot tartalmaz – a 0,6 milliárd paraméteres apró modellektől egészen a 235 milliárd paraméteres óriásig. A „4B” a méretkategóriát jelöli: 4 milliárd paramétert, ami viszonylag kompakt, de már értékelhető rendszert jelent.

A Qwen3 egyik legfontosabb újítása az úgynevezett hibrid érvelési mód: a modell képes váltani a gyors, automatikus válaszadás és a lassabb, lépésről lépésre haladó logikai gondolkodás között. Ezt az utóbbi képességet nevezik az AI-szakmában reasoning-nak, vagyis érvelésnek – innen a Racka „érvelő modell” megjelölése is.

Míg egy hagyományos nyelvi modell egyszerűen a legvalószínűbb következő szót adja meg, egy érvelő modell kiterjesztett gondolkodási láncokon keresztül közelít a problémához, sokszor angolul „gondolkozva” (ami gyakran látszik a terminálablakban) akkor is, ha végül magyarul válaszol. Ez utóbbi nem hiba, hanem mérnöki jellemző: a Racka-4B esetén is dokumentált, hogy angol nyelvű belső következtetési képességét a fejlesztők megtartották és kihasználták.

A LoRA: hogyan lehet egy óriást meggyőzni egy szóval?

A Racka fejlesztésének egyik legérdekesebb technikai eleme a LoRA nevű eljárás volt. A Low-Rank Adaptation (alacsony rangú adaptáció) nevéből nem sejthetően elegáns megoldás.

Képzeljük el, hogy egy több milliárd paraméteres modell olyan, mint egy hatalmas, évek alatt összegyűjtött enciklopédia. Az összes lapot átírni – vagyis az összes paramétert újratanítani – rendkívül drága: hónapokig tartana, és többmillió dollárba kerülne. A LoRA ezzel szemben nem az egész enciklopédiát írja át, hanem vékony betétlapokat fűz be minden fejezet mellé. Ezek a betétlapok tartalmazzák az új tudást, a kiegészítéseket és a javításokat – az eredeti könyv oldalait pedig érintetlenül hagyják:

a tanítás során csak ezek a betétlapok frissülnek, amelyek mérete töredéke az eredeti modellnek.

A Racka esetében ez konkrétan azt jelentette, hogy a kilencfős csapat a Komondor szuperszámítógépen csupán a LoRA-rétegeket tanította be – körülbelül 200 millió oldalnyi magyar, angol, német és programkódból álló szövegen. Az adatmix összetétele tudatos volt: 44 százalék magyar, 24 százalék angol, 21 százalék német, és 11 százalék kód. Az angolra és németre azért volt szükség, hogy a modell ne felejtse el a korábban elsajátított logikai és érvelési képességeit – ezt a jelenséget a szakirodalom katasztrofális felejtésnek nevezi, és az egyik legnagyobb kihívás minden adaptációs kísérletben.

A tokenizátor: ahol a magyar morfológia bosszút áll

A fejlesztők másik kulcslépése a tokenizátor újraírása volt – és ez az, amiből sokat tanulhatunk a magyar nyelv gépi feldolgozásának nehézségeiről.

A nagy nyelvi modellek a szövegeket nem betűnként, hanem apró egységenként, úgynevezett tokenek formájában dolgozzák fel. Az angolra optimalizált modellek szótárában a magyar szavak – amelyek szerkezetükből adódóan rengeteg ragot, jelet és képzőt hordoznak – sokszor értelmetlen darabokra esnek szét. Ahol egy angol szót egyetlen token jelöl, ott egy magyar ragozott szóalak négy-öt tokenné töredezhet. Ez lassítja a generálást, növeli a feldolgozási költséget, és rontja a morfológiai pontosságot.

A Racka fejlesztői az eredeti, 150 ezer elemből álló Qwen-szótárból eltávolítottak 32 ezer, a projekt szempontjából felesleges tokent – köztük számos távol-keleti karaktert –, és helyükre magyar nyelvre optimalizált tokeneket illesztettek be. Az eredmény: 47 százalékkal kevesebb tokenből épül fel ugyanaz a magyar szöveg, amivel nemcsak sebességet nyertek, hanem a helyesírási és ragozási hibák számát is csökkentették.

Az elmélet találkozik a valósággal

Több hazai tartalomkészítő is kipróbálta a modellt, és a tesztek vegyes, sőt helyenként meglepő eredményeket hoztak. Az alábbi próbában például több kategóriában, matematikai feladványban, logikai rejtvényben, nyelvi teszttel és szövegelemzéssel feszegették a határait.

Az egyik legismertebb mesterséges intelligencia-próbafeladatban – amelyben három misszionáriusnak és három kannibálnak kell átkelnie egy folyón úgy, hogy a kannibálok sehol ne legyenek többségben a misszionáriusokhoz képest – a modell mondhatni nehézségekbe ütközött. Ez az úgynevezett „River Crossing” feladványtípus régen ismert tesztje a logikai következtetési képességeknek, és a kisebb modellek rendszeresen elbuknak rajta, különösen, ha az utasítást nem angolul, hanem valamelyik kisebb nyelven kapják.

A másik klasszikus feladat – „15 madár ül a fán, egyet lelövünk, hány marad?” – látszólag egyszerű, de valójában a józan ész alkalmazásáról szól: a helyes válasz természetesen nulla, hiszen a többi madár elrepül az ijedtségtől. Ez a fajta commonsense reasoning (józan észen alapuló következtetés) szintén nem erőssége az adaptált kisebb modelleknek – egyiknek sem, nagy valószínűséggel nem az ELTE kutatóin múlott.

A nyelvi tesztek közül kiemelkedik a számítástechnikában kicsit jártasaknak jól ismert árvíztűrő tükörfúrógép kifejezés értelmezése: a természetesen nem létező fúró igazából a magyar ábécé összes rövid és hosszú magánhangzóját tartalmazó szósor, amellyel hagyományosan a betűkészletek megjelenítési képességét szokás ellenőrizni. Az AI-tesztelésnél ilyen kifejezéseket arra használnak, hogy lássák, a modell tisztában van-e a szó jelentésével és morfológiai szerkezetével. Racke elhasalt. Egy másik teszt Rejtő Jenő-regény rövid részletének értelmezése volt – amely a humor, az irónia és a korszakspecifikus kontextus kezelését vizsgálja, és juhunk bizony nem sok szövegértésről és humorérzékről tanuskodott.

Az elefánt a számítógépben: a kínai Qwen jobban ír magyarul?

A YouTube-os teszt egyik legelgondolkodtatóbb megfigyelése az volt, hogy az eredeti kínai Qwen3-4B modell – amelyből a Racka készült, és amely soha nem célzottan tanult magyart – bizonyos feladatokban természetesebb – és ami meghökkentő –, magyarosabb szövegeket produkál, mint a magyar Racka.

Ez első hallásra abszurdnak tűnik, de a jelenségnek van magyarázata. A Qwen3 sorozat alapmodelljeinek betanítási adathalmaza hatalmas: több száz milliárd token, amelybe természetesen bekerültek magyar weboldalak, Wikipédia-szócikkek, fordítások is.

Ráadásul a Qwen3-4B maga is érvelő modell, tehát a logikai feladatokban nem az adaptált változattal, hanem az eredetivel kell összevetni.

A LoRA-alapú adaptáció előnye a hatékonyság, de hátránya is van: a betétlapok csak a már meglévő tudást finomhangolják, de nem képesek alapvetően megváltoztatni a modell mélyen beágyazott reprezentációit. Ha az alapmodell bizonyos struktúrákban nem tud igazán erős lenni, a LoRA-tól sem várhatunk csodát. A Racka fejlesztői maguk is nyíltan vállalják ezt a HuggingFace modellkártyájukon: a rendszer kompakt, élzárásra (edge computing) optimalizált eszköz, és összetettebb feladatokhoz ők is 27–30 milliárd paraméteres modelleket ajánlanak.

Mit lesz a magyarhoz hasonló kis nyelvekkel?

Magyarország nincs egyedül a maga dilemmájával. A világ tele van hasonló méretű és szerkezetű nyelvekkel, amelyek digitális szuverenitásuk megőrzéséért küzdenek – és a megközelítések, ahogy az várható, igen eltérőek.

Tanulságos a finn példa, mert jól mutatja, mi a különbség az adaptáció és a valódi alapmodellből fejlesztés között. A Turkui Egyetem és a Silo AI által fejlesztett Poro nem adaptált, hanem elölről épített modell: 34 milliárd paraméteres, 1 billió tokenen tanított rendszer, amelynek betanítási adataiból 129 milliárd token volt finn nyelvű. Méretét tekintve a Poro tehát körülbelül nyolcszor akkora, mint a Racka – és a fejlesztéséhez az európai EuroHPC program LUMI szuperszámítógépét vették igénybe, amely jóval nagyobb kapacitású a magyar Komondornál.

Ez az összehasonlítás pusztán azt illusztrálja, hogy az „alapmodelltől nulláról” és az „adaptáció LoRA-val” két gyökeresen különböző stratégia, amelyek mögött eltérő erőforrások és célok állnak. A finnek komoly állami és EU-s forrásokat mozgósítottak; a Racka tudomásunk szerint egy kilencfős akadémiai csapat eredménye, jóval szűkebb keretek között.

Hasonló kísérleteket folytatnak görögül, lengyelül, héberül, arabul – és a tapasztalatok is meglehetősen hasonlók. Az egyik legfontosabb kutatási tanulság szerint az alapmodell adaptálása során mindig érdemes az angol szöveg bizonyos arányát megtartani az adatmixben: ha csak az új célnyelven tanítják, a modell egy idő után kezdi elfelejteni általános logikai és érvelési képességeit. A Racka fejlesztői ezt felismerték, és az adatmixükbe beépítették az angolt és a németet is.

A kutatások azt is mutatják, hogy a tokenizátor cseréje – amelyet a Racka is elvégzett – az egyik legtöbb hasznot hozó beavatkozás. Szinte minden morfológiailag gazdag nyelvnél (finn, arab, héber, török) drámai javulást hoz, ha a szótárt az adott nyelv szerkezetéhez igazítják.

Van értelme a magyarosításnak?

Ha a mércét (igazságtalanul) a ChatGPT-4 vagy a Claude teljesítménye jelentené – amelyek betanítása egyszeri alkalommal százmillió dollárba kerül, energiaigényük pedig akkora, hogy például a GPT-4 esetén a becslések szerint elegendő lenne San Francisco városának háromnapos áramellátásához, és amelyek aztán hatalmas, több tízezer szerverből álló adatközpontokban futnak a világ minden táján –, akkor a Racka messze lemarad.

Ha viszont az a mérce, hogy egy hazai akadémiai csapat, ilyen infrastruktúrával, átlátható módszerekkel és nyílt forráskóddal létrehozzon valamit, ami korábban nem létezett Magyarországon – akkor a kísérlet hiányosságaival együtt is tiszteletre méltó.

A kis nyelvek magyarítása nem elsősorban technikai, hanem inkább stratégiai és kulturális kérdés. Aki arra vár, hogy a Google vagy az OpenAI tökéletesen megtanul magyarul, és eközben integrál minden jogi, kulturális és történeti kontextust, amit egy hazai felhasználó elvár egy AI-rendszertől, az csalódni fog. A Racka nem azért fontos, mert jelenleg jobb lenne a Qwennél (éppen hogy gyengébb egyes feladatokban). Azért értékes, mert infrastruktúrát, tudást, módszertant és tapasztalatot épít fel, amelyre a következő kísérletek már támaszkodhatnak.

Van azonban egy kényelmetlen strukturális kérdés is, amelyet nem lehet megkerülni. A modell januárban jelent meg az arXiv-on, a legjobb publikációs díjat februárban vette át a csapat – a hazai nyilvánosság mégis csak júniusban szerzett róla tudomást, amikor az ELTE végre sajtóközleményt adott ki. Ez a közel öt hónapos csúszás nem a kutatók hibája, hanem talán egy mélyebb hiányosságé: a magyar akadémiai szféra és a közvélemény között nincs rendszeres, működő híd. Nem létezik olyan struktúra, amely az arXiv-on megjelenő hazai kutatásokat automatikusan a köztudatba emelné – felkészített demóval, elérhető tesztkörnyezettel, időben kiadott kommunikációval. Egy ilyen modellt ideális esetben a megjelenés pillanatában kellene bemutatni. Ha a digitális szuverenitásról – amennyiben még lehet egyáltalán ezt a kifejezést a hazai közéletben használni – komolyan gondolkodunk, a kutatás és a nyilvánosság közötti szakadékot ugyanolyan sürgősen kellene orvosolni, mint magát a technológiai lemaradást.

A fejlesztők közleményükben is jelzik: dolgoznak nagyobb modellek adaptálásán. A Racka egy 4 milliárd paraméteres próba, egy „proof of concept” (elv működőképességének bizonyítása) – annak demonstrációja, hogy hazai akadémiai infrastruktúrán, nyílt eszközökkel, még viszonylag alacsony költséggel is lehet lépni.