Mi az az MoE modell?
A mesterséges intelligencia titkos fegyvere, amit talán már használt is
Ha hallott már arról, hogy a nagy AI-modellek „szakértőkből” állnak, de fogalma sem volt, mit jelent ez, akkor ez a cikk kifejezetten önnek szól. Könyvelőknek, jogászoknak, orvosoknak és mindenkinek, aki használja ezeket az eszközöket anélkül, hogy mérnök lenne.
A séf és a konyhája – egy hasonlat a kezdethez
Képzeljük el, hogy bemegyünk egy étterembe, ahol egyetlen séf van. Ez a séf mindenhez ért egy kicsit: tud sütni, főzni, halat készíteni, süteményt díszíteni. Ha megrendelünk egy bécsi szeletet, ő elkezd gondolkodni az összes technikájáról, mielőtt hozzálát. Lassú, de sokoldalú.
Most képzeljük el a másik éttermet: ott nyolc séf áll a konyhában, mindenki más területre specializálódott. Amikor megrendeljük a bécsi szeletet, a rendszer azonnal tudja, hogy a húsételek specialistáját kell felhívni. A többiek közben pihennek, vagy más asztalt szolgálnak ki. Gyorsabb, hatékonyabb – és a végeredmény is jobb.
Nagyjából így működik az MoE-modell, vagyis a Mixture of Experts – szó szerint: szakértők keveréke. Nem egyetlen, mindentudó idegháló kezeli az összes kérdést, hanem több kisebb, specializált szakértő” almodell, amelyek közül mindig csak a legmegfelelőbb(ek) lép(nek) akcióba.
Egy régi ötlet, amelyre az AI rátalált
Az MoE-gondolat nem a közelmúlt szüleménye. Az alapelvet Robert Jacobs és munkatársai már 1991-ben leírták egy akadémiai tanulmányban, amelynek lényege: különböző feladatokat különböző tanult egységekre érdemes bízni, és egy kapuőr” (angolul: gating network) dönti el, melyiket kell meghívni.
Ez az elképzelés évtizedekig inkább az elmélet szintjén maradt. A korai számítógépek és hálózatok nem tudták hatékonyan kezelni az ilyen összetett rendszereket. Aztán a 2010-es évek végén, a nagy nyelvi modellek robbanásszerű fejlődésével egyidőben, a gondolat újra előkerült – és ezúttal valódi erővel.
A fordulópontot a Google Brain kutatócsoportja hozta el 2017-ben, amikor közzétette az „Outrageously Large Neural Networks” című munkáját. Ebben mutatták be az első modern, sparsely-gated MoE réteget, vagyis a „ritkán aktivált szakértők” elvét. Az üzenet egyszerű volt: óriási modelleket lehet építeni anélkül, hogy minden egyes kiszámolásnál az összes paramétert mozgásba kellene hozni.
Hogyan működik pontosan? A kapuőr titka
A hagyományos nyelvi modellekben minden paramétert, minden súlyt aktiválnak minden egyes szónál, minden egyes mondatnál. Ha a modellnek 70 milliárd paramétere van, akkor 70 milliárd számítást kell elvégezni egyetlen szó generálásához. Ez rendkívül költséges – mind energiában, mind időben.
Az MoE-modelleknél van egy intelligens beléptetőrendszer. Minden egyes bejövő szövegdarabhoz a kapuőr megvizsgálja: melyik szakértőre van itt szükség? Általában csak 2–4 szakértő aktiválódik egyszerre a teljes sokaságból (ami lehet 8, 64, sőt több száz is). A többiek nem dolgoznak. Így a modell összességében hatalmas kapacitással bírhat – mondjuk 400 milliárd paraméterrel –, de egy adott feladatnál ténylegesen csak 50 milliárd paramétert használ fel.
Visszatérve a séfes hasonlathoz: az étterem bérköltsége a nyolc séfnél magasabb, mint az egyedül dolgozó főzőnél – de egyetlen rendelés kiszolgálásához nem nyolcat fizetnek, csak azt az egyet, aki a legjobb az adott ételhez. A vendégek gyorsabban kapják meg az ételüket, az étterem pedig kevesebb költséget fizet.
A ChatGPT-4 és a nagy találgatás
2023 tavaszán, a GPT-4 megjelenésekor, az OpenAI szokatlanul keveset árult el a modell belső felépítéséről. Nem közölték a paraméterek számát, az architektúrát, a betanítási adatokat. Ez önmagában szokatlan volt egy ilyen méretű bejelentésnél és természetesen azonnal megindult a spekuláció.
Néhány hónappal később kiszivárgott (majd félig-meddig megerősített) információk alapján az AI-közösség egyre inkább arra kezdett következtetni, hogy a GPT-4 valójában MoE-alapú architektúrát használt. A leggyakrabban idézett hipotézis szerint a modell nyolc, egyenként körülbelül 220 milliárd paraméteres szakértőből áll, amelyek közül egyszerre kettő aktiválódik – összesen tehát mintegy 1,76 billió paraméter van jelen, de csak nagyjából 440 milliárdnyi dolgozik egyszerre.
Az alapja ennek a feltételezésnek részben technikai következtetés volt: a GPT-4 teljesítménye, válaszminősége és sebessége egyszerre utalt hatalmas kapacitásra és hatékony aktiválásra, ami az MoE-architektúra tipikus ujjlenyomata. Másrészt maga Sam Altman, az OpenAI vezérigazgatója egy podcastban félreérthetően fogalmazott, amikor azt mondta, hogy a GPT-4 nem egyetlen hatalmas modell”: ez a kijelentés szintén táplálta a találgatásokat.
Fontos azonban hangsúlyozni, hogy az OpenAI soha nem erősítette meg hivatalosan ezt az architektúrát. A találgatás a technológiai közösség következtetése maradt. Ami viszont biztos: az MoE-megközelítés ettől kezdve nem számított titoknak a szakmában, és a versenytársak nyíltan vállalták fel.
Kik vallják be, hogy MoE-t használnak?
A Mistral AI francia vállalat 2023 végén tette közzé a Mixtral 8x7B nevű modelljét, amelyről nyíltan közölték, hogy MoE-alapú: nyolc szakértőből áll, egyszerre mindig kettő dolgozik. Meglepő teljesítményt nyújtott: olyan kérdésekben verte a nálánál jóval nagyobb hagyományos modelleket, ahol a specializált tudás számított.
A Google DeepMind a Gemini 1.5 Pro modell esetén maga is megerősítette az MoE-architektúra alkalmazását. A Meta nyílt forráskódú modelljei között szintén megjelent ez az irány. Az MoE ma már nem kísérleti technológia – a verseny élvonalában lévő rendszerek egy jelentős részének alapköve.
Mit jelent ez a könyvelőnek, a jogásznak, az orvosnak?
Leegyszerűsítve: több hasznot kapnak ugyanannyi (vagy kevesebb) számítási erőforrásból. Ha egy cég helyi AI-megoldást alkalmaz – például orvosi dokumentáció feldolgozásához, szerződéselemzéshez vagy könyvelési adatok kivonataihoz -, akkor az MoE-architektúrán alapuló modell nem csupán okosabb”, hanem ténylegesen gazdaságosabb is. Kevesebb energia, kisebb hardverigény, gyorsabb válasz.
Jogi irodák esetén különösen releváns a specializáció előnye. Egy MoE-modell képes úgy betanítani egyes szakértőit, hogy azok kimondottan adójogi szövegekre, mások polgári peres iratokra, megint mások európai uniós joganyagra legyenek optimalizálva – miközben egyetlen rendszert kezel a felhasználó.
Gondoljunk erre úgy, mint egy nagy ügyvédi irodára. Nem egyetlen mindenttudó ügyvéd van, hanem csapatok: adózás, ingatlan, munkajog, cégjog… A kliens bejön az irodába, és a recepció (a kapuőr) azonnal tudja, kinek az asztalára kell az aktát irányítani. Az ügyfél tapasztalata pedig az lesz, hogy egyetlen iroda, tökéletes szakértelem.
A hátrányok: amit nem szabad elfelejteni
Mint minden technológiánál, itt is vannak árnyoldalak. Az MoE-modellek betanítása bonyolultabb, mint a hagyományos sűrű (dense) hálózatoké. A kapuőr maga is tanul – és ha rosszul tanul, az egész rendszer félre tud siklani: egyes szakértők túlterheltté válnak, mások pedig alig dolgoznak.
Az úgynevezett load balancing, vagyis a terheléselosztás kényes feladat. Ha minden kérdést ugyanaz a két-három szakértő kap meg, a specializáció előnye elvész. A kutatók különféle kényszerfeltételekkel próbálják biztosítani, hogy a munka egyenletesen oszoljon el a specialisták között.
Emellett az MoE-modellek memóriaigénye nagy: bár egyszerre kevesebb paramétert aktiválnak, az összeset a memóriában kell tartani (hogy gyorsan elérhető legyen, amelyik éppen szükséges). Ez infrastrukturális követelményeket támaszt, amelyeket az üzemeltető oldalon kell megoldani, még ha a végfelhasználó ezt nem is látja, de a rendszergazda igen.
Összefoglalás: miért érdemes ismerni ezt a fogalmat?
Az MoE nem egy elvont mérnöki fogalom, amellyel csak laborokban kell foglalkozni. A könyvelők és jogászok által napi szinten használt AI-asszisztensek, dokumentumelemző eszközök és automatizált rendszerek egy jó része már ezen az elven működik vagy rövidesen ezen fog.
Aki érti az alapelvet, az jobban képes megítélni, mit lehet kérni ezektől a rendszerektől, mikor érdemes különböző modellek között választani, és mi az oka annak, ha egy általános eszköz gyengébben teljesít egy speciális feladatnál, mint egy célzottan finomhangolt alternatíva.
A mesterséges intelligencia világa gyorsan változik. Az MoE-modellek térnyerése azt jelenti, hogy a jövő AI-rendszerei egyszerre lesznek nagyobbak és hatékonyabbak. Nem az a kérdés, hogy ez eljön-e, hanem az, hogy felkészültek vagyunk-e rá.
