AI_Small_LM

Mit jelentenek az AI modellek számai? 3B, 7B, 20B…

Amikor a méret nem mond el mindent

Pontosan micsoda milliárdok?

A „B” a „milliárd” szót jelöli — és az adott modell paramétereinek számára utal. Egyszerűsítve: a paraméter egy olyan kapcsolat, amelyet a modell milliárdnyi szövegen alapuló tanulás során sajátított el. Minél több van belőlük, annál több általános tudást „memorizált” potenciálisan a modell.

Egy 3B-s modellnek 3 milliárd paramétere van. Egy 70B-snak hetven milliárd. Papíron a nagyobb jobbnak tűnik. A valóságban ez sokkal árnyaltabb kérdés.

Miért nem garantál jobb válaszokat egy nagyobb modell?

Egy válasz minősége három fő tényezőtől függ. Az adatok minősége az eredmény kb. 45%-át teszi ki — vagyis azok a dokumentumok, szabályozások és szakmai tartalmak, amelyeket a rendszer a válaszadáshoz felhasznál. A prompt minősége, azaz a kérdés megfogalmazása kb. 28%-ot jelent. Maga a modell csak kb. 22%-ban szerepel.

Vagyis: egy jól konfigurált 7B-s modell, amely pontos szakmai adatokra épül és jól megfogalmazott kérdésekkel dolgozunk, rendszeresen felülmúl egy rosszul használt, általános célú 70B-s modellt.

A hardverkorlátok: egy sokszor figyelmen kívül hagyott szempont

A nagy modellek jelentős erőforrásokat igényelnek. Egy 70B-s modell jellemzően 40–80 GB RAM-ot igényel — ami erős szervereket, felhőkapcsolatot és komoly költségeket jelent. Egy 7B-s vagy 8B-s modell futhat egy asztali mini PC-n, helyileg, internet nélkül, teljesen kielégítő teljesítménnyel célzott szakmai feladatokra.

Pontosan ezt a döntést hozta az ArkeoAI is: egy kompakt, az ügyfelek szakmai adataira optimalizált modellt részesítettünk előnyben ahelyett, hogy egy felhőtől függő, gigantikus modellt használnánk.

A lényeg

Több paraméter nem jelent automatikusan több relevanciát. Ami számít, az a modell, az adatok és a felhasználási eset közötti összhang. Egy jól megtervezett rendszer egy szerény modellel mindig jobb eredményt hoz, mint egy rosszul irányított óriásmodell.

Az erő a pontosságban rejlik, nem a méretben.

Similar Posts

  • Mi az a token?

    Röviden: az alapegység, amelyet az AI a szöveg olvasásához, megértéséhez és írásához használ. Talán észrevette már, hogy az AI-szolgáltatások „tokenekről” beszélnek: token-limit, token-költség, kontextusablak tokenekben… A szó mindenhol felbukkan, de ritkán magyarázzák el érthetően. Megérteni, mi az a token, annyit jelent, mint megérteni, hogyan érzékeli a szöveget egy nyelvi modell — és miért viselkedik néha…

  • Mi az a kvantált modell?

    Ha esetleg valaha látott AI-modelleket telepítés előtt, találkozhatott ilyesmivel: mistral-7b-instruct-v0.3.Q4_K_M.gguf. A modell neve talán ismerős, a “b” jelentéséről már írtunk is korábban, de mi az a betű-szám kombináció a végén?… Nos ez a kvantálást jelöli. Egy egyszerű, de okos technika, amely lehetővé teszi, hogy egy komoly AI-modell elférjen egy normál irodai számítógépen, anélkül, hogy lényegesen…

  • Miért nem tudja az AI közvetlenül olvasni a fájlokat?

    Word, PDF, Excel: mi történik valójában a háttérben Lehet, hogy megpróbált már odaadni az AI-nak egy dokumentumot, és felmerült önben: tényleg olvassa? Érti az Excel-táblázatomat? Látja a Word-ben írott szerződésem elrendezését? A rövid válasz: nem, nem közvetlenül. Megérteni, hogy miért, annyit jelent, mint megérteni, hogyan működik valójában a mesterséges intelligencia — és miért végez az…

  • Hogyan spórol időt az AI egy könyvelőirodának?

    Konkrét esetek, túlzott ígéretek nélkül Egy könyvelő munkaidejének átlagosan 30–40%-át alacsony hozzáadott értékű feladatokra fordítja: dokumentumkutatás, ismétlődő szabályozási ellenőrzések, szabványos válaszok szerkesztése. Az AI nem helyettesíti a szakértelmet — de ennek a tehernek a nagy részét át tudja venni. Azonnali szabályozási kutatás Ahelyett, hogy manuálisan böngészné az Általános Adótörvénykönyvet vagy a hivatalos közlönyöket, a munkatárs…

  • Mit jelent valójában az „offline AI”?

    Egy mindenki által használt, de kevesek által értett kifejezés rövid tisztázása „Offline mesterséges intelligencia”, „helyi AI”, „on-premise modell”… Ezek a kifejezések egyre elterjedtebbek, de konkrét jelentésük sokak számára homályos marad. Íme, mit jelent mindez valójában. Online vs offline: az alapvető különbség Egy online AI-eszköz távoli szervereken működik. Amikor kérdést teszünk fel a ChatGPT-nek vagy egy…

  • Miért talál ki rossz válaszokat az AI?

    A nyelvi modellek hallucinációinak megértése Mindenki hallotta a „hallucinációˮ kifejezést a mesterséges intelligenciával kapcsolatban. Egy modell, amely nem létező törvénycikket idéz. Egy asszisztens, amely 107 000 eurós végkielégítést számol ki, miközben a valós összeg 2 625 euró. Egy kitalált joggyakorlati hivatkozás, amelyet ugyanolyan magabiztossággal írtak meg, mint egy valódi legfelsőbb bírósági határozatot. Ez nem egy…

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük