Mit jelentenek az AI modellek számai? 3B, 7B, 20B…

Amikor a méret nem mindent mond el – és amit a számok valójában takarnak

Ha valaha is érdeklődött a mesterséges intelligencia iránt, biztosan találkozott már olyan kifejezésekkel, mint „7B-es modell” vagy „20 milliárd paraméteres LLM”. De mit is jelentenek valójában ezek a számok? És ami még fontosabb: valóban ez a legmeghatározóbb szempont egy AI-megoldás kiválasztásakor?

Milliárdok – de micsodából?

Amikor egy AI-modell neve mellé kiírnak valamit, mint „7B” vagy „70B”, az a „B” a billion, azaz milliárd szót jelöli és pontosan a modell paramétereinek számát takarja. De mit is jelent pontosan egy paraméter?

A paramétert a legegyszerűbben egy kapcsolóhoz lehet hasonlítani: egy apró, szabályozható értékhez, amelyet a modell a tanulás során maga állít be. Az emberi agyban az idegsejtek között szinaptikus kapcsolatok vannak. A paraméterek az AI-ban valami hasonló szerepet töltenek be. Nem kézzel programozzák őket: a modell maga „tanulja meg” az optimális értékeiket, miközben több milliárd szövegmintán edz.

Egy paraméter konkrétan: mi is az?

Képzeljük el, hogy egy mondatot kell kiegészíteni: „A macska a…” A modell belső mechanizmusa ilyenkor súlyokat rendel az összes lehetséges következő szóhoz: „szőnyegen”, „tetőn”, „konyhában”, stb. Ezek a súlyok, amelyek meghatározzák, melyik szó valószínűbb a következő pozícióban – paraméterek.

Egy 7 milliárd paraméteres modellben 7 000 000 000 ilyen súlyérték tárolódik, mindegyik egy-egy apró döntést képvisel arról, hogyan kapcsolódnak egymáshoz a fogalmak, a szavak, a mondattani szerkezetek. Ezek együttesen alkotják a modell „tudását”.

Fontos megérteni: a paraméterek nem szavakat vagy mondatokat tárolnak el szó szerint. Inkább statisztikai mintázatokat kódolnak, vagyis azt, hogy bizonyos fogalmak, kifejezések, összefüggések hogyan kapcsolódnak egymáshoz a tanítóanyagban.

Hogyan „tanulnak” a paraméterek?

A tanítás folyamata során a modell újra és újra megpróbál szövegeket kiegészíteni. Ha téved, egy visszajelzési mechanizmus (backpropagation, azaz visszaterjesztés) finoman módosítja a paramétereket – milliárdszor, egymás után. Az eredmény: egy hálózat, amely képes emberi szövegekhez hasonló válaszokat generálni.

Minél több paraméterek van, annál több ilyen kapcsolat tárolható – elméletileg. A valóság azonban árnyaltabb.

Modell mérete	Paraméterszám	Jellemző RAM-igény	Tipikus használati eset
3B	3 000 000 000	~4 GB	Egyszerű feladatok, mobileszközök
7–8B	7–8 000 000 000	~8–16 GB	Professzionális helyi telepítés
13–20B	13–20 000 000 000	~16–32 GB	Kiegyensúlyozott teljesítmény
70B+	70 000 000 000+	40–80+ GB	Nagyvállalati felhős megoldások

Miért nem garantálja a jobb választ a nagyobb modell?

A közkeletű feltételezés az, hogy minél nagyobb egy modell, annál okosabb. Ez a nézet azonban leegyszerűsítő és a gyakorlatban rendszeresen cáfolatot is nyer.

Egy AI-rendszer válaszminősége három fő tényezőtől függ, és a modell maga ezek közül csak az egyiket alkotja:

Adatminőség: ~45% • Prompt-minőség: ~28% • Modell mérete: ~22%

Az adatminőség a legdöntőbb tényező. Pontosan milyen dokumentumokat, szabályozásokat, szakmai szövegeket kap a rendszer kontextusként? Egy jogi AI esetében például az aktuális jogszabályok, bírói ítéletek és szerződésminták minősége és relevanciája fontosabb, mint maga a modell.

A prompt-minőség szintén meghatározó. Hogyan van megfogalmazva a kérdés? Tartalmaz-e kontextust, megszorításokat, példákat? Egy rosszul megfogalmazott kérdés még a legjobb modellből is rossz választ csal ki.

A modell maga – beleértve a paraméterszámot – csak a harmadik helyen áll. Egy pontosan konfigurált 7B-s modell, amely releváns szakmai adatokat kap és jól megformált kérdésekkel dolgozik, rendszeresen felülmúlja azt a 70B-s generalista modellt, amelyet rosszul kérdeznek meg, vagy amelynek nem adnak megfelelő kontextust.

Hardverkorlátok: a mellőzött szempont

A paraméterszám nemcsak a tudáskapacitást befolyásolja, hanem közvetlenül meghatározza a futtatáshoz szükséges hardvert is. Ez a szempont a legtöbb marketinganyagból kimarad, de a valós alkalmazásoknál döntő fontosságú.

Egy 70 milliárd paraméteres modell futtatásához általában 40–80 GB RAM szükséges, GPU-hoz optimalizálva. Ez nagyvállalati szervert vagy felhőalapú infrastruktúrát igényel, komoly üzemeltetési költségekkel.

Egy 7-8B-s modell ezzel szemben elfér egy asztali mini PC-n vagy egy erős laptopon, 16–32 GB RAM-mal, helyi hálózaton, internet nélkül, márpedig szabályozott szektorokban (jog, könyvelés, egészségügy) ez az adatvédelem szempontjából nem elhanyagolható előny.

Az ArkeoAI pontosan ezért döntött a kompakt, szakmailag optimalizált modellek mellett: nem a telepített modell nagysága a cél, hanem a precizitás és az adatszuverenitás.

Nem minden milliárd egyforma: a modellarchitektúra

Egy további szempontot kevesen emlegetnek: a paraméterszám önmagában nem árulja el, hogyan van a modell felépítve. Az újabb architektúrák – mint a Mixture of Experts (MoE) – lényegesen hatékonyabbak lehetnek, mint a hasonló méretű hagyományos modellek.

Egy MoE-alapú 20B-s modell például úgy működhet, hogy egyszerre csak a paraméterek töredékét aktiválja (pl. 4-5 milliárdot), de azokat pontosan a feladathoz illeszti, azaz tudásának kizárólag a releváns részét használja fel a válasz generálásához. Ez azt jelenti, hogy kisebb számítási igénnyel tud hasonló vagy jobb teljesítményt nyújtani, mint egy monolitikus 20B-s modell, amely minden paramétert minden lépésben mozgósít.

A paraméterszám: a modell tárkapacitása. Az architektúra: ahogyan azt a kapacitást használja. Mindkettő számít.

Összefoglalás: mire figyeljen, amikor modellt választ?

Amikor egy AI-megoldást értékelünk, ne a paraméterszám legyen az első szempont, hanem ezek a kérdések:

Kérdés	Miért fontos?
Milyen adatokon fut a rendszer?	Az adatminőség a legfőbb teljesítménymeghatározó
Hogyan vannak megfogalmazva a promptok?	A kérdéskultúra legalább annyit nyom, mint a modell
Helyi vagy felhős futtatás?	Adatvédelmi, megfelelőségi és cost-szempontok
Milyen architektúrán alapul?	MoE vs. Dense: hatékonyság és erőforrásigény
Milyen feladatra lett optimalizálva?	Általános vs. szakterületi fókusz

Több paraméter nem jelent automatikusan több relevanciát. Ami számít: a modell, az adatok és a feladat illeszkedése egymáshoz. Egy jól tervezett, szerény méretű rendszer mindig felülmúlja a rosszul irányított óriást. Az erő a precizitásban rejlik, nem a méretben.