RAG_structure

A könyvtáros, aki soha semmit nem felejt el: hogyan olvassa el az AI a dokumentumait?

Talán már próbált Ön is „odaadni egy dokumentumot” a ChatGPT-nek: csatol egy szerződést, kérdést tesz fel, az AI válaszol. Praktikus. De biztosan észrevette, hogy a következő munkamenetben esetleg mindent elfelejtett. Kezdi elölről. Újra csatolja a fájlt. Újra felteszi a kérdést …

Van azonban egy másik megközelítés: hatékonyabb, biztonságosabb, és végtelenül jobban alkalmazkodik a professzionális használathoz. RAG-nak hívják. És hogy megértse, hogyan működik, képzeljen el egy különleges könyvtárost.

A könyvtáros, aki ismeri az összes aktáját

Képzelje el, hogy felvesz egy könyvtárost az iroda teljes dokumentációjának kezeléséhez. Az első napon hozzáférést ad neki az összes aktához: szerződések, eljárások, sablonok, joggyakorlat, belső jegyzetek, feljegyzések… Egy hét alatt mindent elolvas, rendszerez, összefoglaló lapokat készít. Nem memorizál minden szót, de pontosan tudja, mit hol kell keresni.

A második héttől kezdve bármilyen kérdést feltehet neki: „A 2022-es Dupont-szerződésben mi a felmondási záradék?” Nem olvassa el újra az egész szerződést. Megnézi a lapját, egyenesen a megfelelő helyre megy, és másodpercek alatt megadja a választ.

Ez pontosan az, amit egy RAG-rendszer tesz. A RAG a Retrieval-Augmented Generation rövidítése kb. kereséssel feljavított generálás.

Nem kell minden alkalommal újra odaadni neki a szerződést. Már benne van a munkamemóriájában. Ha frissíteni akar egy dokumentumot, elég jelezni neki, ő frissíti a lapját és kész.

Konkrétan: mi történik a dokumentumok „indexelésekor”?

Az indexelés a könyvtárosunk katalogizálási munkája. Technikailag, lépésről lépésre, ez történik:

1. Dokumentumok beolvasása Az AI végigolvassa az összes fájlt (PDF, Word, szöveg…) és néhány bekezdésnyi kis blokkokra bontja őket.
2. Lenyomatok készítése Minden blokkot egy számsorozattá alakít (ezt nevezzük „vektornak”), amely a szemantikai tartalmát reprezentálja: nem a pontos szavait, hanem a jelentését.
3. Tárolás egy indexbenEzeket a lenyomatokat egy helyi adatbázisban tárolja, mint egy rendkívül pontos könyvtári katalógus.
4. Válasz egy kérdésreAmikor kérdést teszünk fel, az AI az indexben keresi a kérdéshez legjobban illeszkedő blokkokat, és ezeket használja a válasz felépítéséhez.

Ez a folyamat egyszer zajlik le a telepítéskor. Ezután minden kérdés sokkal rövidebb időt vesz igénybe.

Hol tárolják ezeket az indexeket? Ki láthatja őket?

Ez az a pont, ahol a felhőalapú és a helyi megoldás közötti különbség kritikussá válik.

Felhőalapú megoldásnál (ChatGPT Enterprise, Microsoft Copilot stb.): a dokumentumai indexelésre kerülnek, de ez a szolgáltató távoli szerverein történik meg. Az index a szolgáltatónál tárolódik. Technikailag a szolgáltatónak hozzáférése van az adataihoz, még ha szerződéses kötelezettségvállalással is él, hogy nem használja azokat. Adatszivárgás esetén az Ön irodája lesz érintett.

Az ArkeoAI-nál az indexelés közvetlenül az irodában telepített mini PC-n történik. Az indexek soha nem hagyják el a hálózatot. Az iroda dolgozóin kívül senki sem fér hozzájuk, még mi sem, akik a telepítést végezzük.

A dokumentumainak soha nem kell elhagyniuk az irodáját ahhoz, hogy az AI „megértse” őket. Az intelligencia megy hozzájuk és nem fordítva.

Ki hozza létre az indexet, és mennyibe kerül?

Az ArkeoAI keretében mi végezzük el a kezdeti indexelést a telepítés során. Ehhez rendelkezésre bocsátja a dokumentumokat (vagy hozzáférést egy megosztott mappához), és mi beállítjuk a rendszert, hogy tudja, hol keressen és hogyan válaszoljon.

Ez a munka bele van foglalva a telepítési díjba. Nincs indexelt dokumentumonkénti költség, nincs használatalapú számlázás. Ha a rendszer egyszer felállt, önállóan működik.

Ha később új dokumentumokat adna hozzá? Felveszi velünk a kapcsolatot, vagy – a konfigurációtól függően – egy egyszerű felületen keresztül akár Ön is megteheti ezt. Az AI néhány perc alatt frissíti az indexét, szolgáltatáskimaradás nélkül.

Miért nem elég minden kérdésnél egyszerűen csatolni a dokumentumot?

Ez a legkézenfekvőbb megoldás, de számos korláttal rendelkezik. Íme, miért:

• Az AI memóriája korlátozott. Egy AI-modell egyszerre csak meghatározott mennyiségű szöveget tud feldolgozni (ezt „kontextusablaknak” nevezzük). Egy 80 oldalas szerződés gyakran meghaladja ezt a korlátot, és az AI levágja a részt, amit “nem lát”, anélkül, hogy ezt egyértelműen jelezné.

• Minden munkamenetnél mindent újra meg kell adni. Két beszélgetés között semmilyen memória nem marad meg. Minden alkalommal manuálisan kell összerakni a kontextust.

• Minden küldésnél kikerülnek az adatok. Minden kérdéshez csatolt fájl a szolgáltató szerverére kerül. Bizalmas dokumentumok esetén ez ismétlődő kitettséget jelent.

• Egyszerre több dokumentum esetén nem működik. Ha a válasz három szerződés és két belső feljegyzés összevetését igényli, a „csatolás” módszere gyorsan kezelhetetlenné válik.

 Dokumentum csatolásaRAG (ArkeoAI)
Megőrzi a memóriát munkamenetek között✗ Nem✓ Igen
Százak dokumentumot indexel✗ Nem✓ Igen
Automatikusan megtalálja a releváns infótRészben✓ Automatikus
Adatok kikerülnek a szervezetből✗ Minden küldésnél✓ Soha
Dokumentumok frissítése✗ Manuálisan, minden alkalommal✓ Egy frissítés elég
Internet nélkül működik✗ Nem✓ Igen

Miért igényel a ChatGPT Enterprise külön előfizetést?

A ChatGPT Enterprise tartalmaz egy RAG-hoz hasonló funkciót, amelyet „Knowledge”-nek vagy egyedi tudásbázisnak hívnak. Ez a funkció azonban az OpenAI részéről plusz infrastruktúrát igényel: dedikált szerverek az indexek tárolásához, adatszeparáció a többi ügyféltől, technikai személyzet a konfigurációhoz.

Ennek következtében ezt a szolgáltatási szintet nem lehet beépíteni a 20 €-s standard előfizetésbe. Éves kötelezettségvállalással járó vállalati szerződést igényel, dedikált kapcsolattartóval végzett konfigurálást, és körülbelül 60 €/felhasználó/hótól induló tarifát.

Összefoglalva: többet fizet, mert többet kér – de mindig azért fizet, hogy valaki más kezelje az adatait Ön helyett.

Az ArkeoAI-jal nem szervezi ki az adatai kezelését. Ön marad az adatok kizárólagos tulajdonosa és kezelője, mindazzal a lelki nyugalommal, amit ez jelent.

Amit érdemes megjegyezni

Egy dokumentum csatolása egy kérdéshez praktikus egyszeri vagy esetenkénti használatra. De egy olyan professzionális irodának, amely naponta dolgozik a saját fájljainak jelentős részével, ez csupán ideiglenes megoldás.

A RAG ennek a folyamatnak a professzionális változata: az AI folyamatosan ismeri az alapvető dokumentumokat anélkül, hogy újra és újra meg kellene adni azokat és anélkül, hogy elhagynák az irodát és minden kérdésnél felmerülő extra költség nélkül.

Ez a különbség aközött, hogy minden alkalommal kikölcsönz egy könyvet a könyvtárostól, amikor szüksége van rá és aközött, hogy saját könyvtárosa van, aki ismeri a dokumentumállománya minden lapját.

Similar Posts