Miért nem tudja az AI közvetlenül olvasni a fájlokat?

Word, PDF, Excel: mi történik valójában a háttérben

Lehet, hogy megpróbált már odaadni az AI-nak egy dokumentumot, és felmerült önben: tényleg olvassa? Érti az Excel-táblázatomat? Látja a Word-ben írott szerződésem elrendezését?

A rövid válasz: nem, nem közvetlenül. Megérteni, hogy miért, annyit jelent, mint megérteni, hogyan működik valójában a mesterséges intelligencia — és miért végez az ArkeoAI-hoz hasonló megoldás láthatatlan, de nélkülözhetetlen előkészítő munkát, mielőtt még az első kérdés napirendre kerülne.

Az AI nem „olvas”. Számít.

Egy ember, aki megnyit egy Word-dokumentumot, szavakat, bekezdéseket, esetleg egy jól formázott táblázatot lát. Az agya azonnal értelmezi a szerkezetet, a kontextust és a jelentést.

Egy nyelvi modell (LLM — Large Language Model) nem lát semmit. Csak egyet dolgoz fel: nyers szöveget, karakterek sorozatát. Nincs szeme, nincs képernyője, nincs fogalma az „oldalról” vagy az „oszlopról”.

Működése milliárdnyi mondatból tanult statisztikai valószínűségeken alapul. Leegyszerűsítve: megjósolja a legvalószínűbb szót, amely egy másik szót követ, figyelembe véve mindazt, ami a beszélgetésben előzőleg elhangzott. Ez rendkívül hatásos — de feltételezi, hogy a bemenet olvasható, tiszta, rendezett szöveg.

Adj neki mást, és elveszett.

A probléma: a fájlok valójában NEM szövegek

Mi valójában egy Word-fájl (.docx)?

Ellentétben azzal, amit gondolhatnánk, egy Word-fájl nem egyszerű szöveges dokumentum. Ez valójában egy tömörített archívum (mint egy ZIP-fájl), amely XML-fájlok tucatjait tartalmazza — egy technikai jelölőnyelven —, amelyek nemcsak a tartalmat írják le, hanem a margókat, a betűtípusokat, a stílusokat, a metaadatokat, a beágyazott képeket, a megjegyzéseket, a revízió-előzményeket is…

Ha megfelelő szoftver nélkül nyitjuk meg a .docx fájlt, több ezer sor érthetetlen kódot kapunk. Az AI ebből közvetlenül nem tudja kinyerni a jelentést.

Egy PDF még bonyolultabb

A PDF (Portable Document Format) formátumot azért tervezték, hogy a dokumentum minden képernyőn és nyomtatón azonos formában jelenjen meg. Ez kiváló ötlet a megjelenítéshez — de katasztrófa az automatikus kinyeréshez.

Technikailag a PDF nem tartalmaz „bekezdéseket” vagy „mondatokat”. Pozicionálási utasításokat tartalmaz: „jelenítsd meg ezt a szót az X=142, Y=387 koordinátán”. Eredmény: amikor szöveget szeretnénk kinyerni, néha rossz sorrendben kapjuk a szavakat, összekeveredett oszlopokat, szavak közepén elválasztójeleket, hiányzó szóközöket…

Ha a PDF beszkennelt (azaz egy papírdokumentum lefényképezett képe), akkor viszont már szó szerint semmi szöveg nincs benne. Csak pixelek. Az AI seémit sem tud kezdeni vele egy előzetes optikai karakterfelismerési (OCR) lépés nélkül.

Egy Excel-fájl (.xlsx): egy másik világ

Az Excel cellák rácsozata. Minden cellának van egy címe (A1, B3…), egy értéke, néha egy képlete, feltételes formázása, színe, legördülő listája… A fájl mindezt összetett XML-szerkezetben tárolja, több munkalappal, beágyazott diagramokkal, névvel ellátott tartományokkal.

Az AI számára ez a táblázatos szerkezet csak akkor érthető, ha helyesen alakítják strukturált szöveggé. Egy rosszul előkészített, 50 oszlopos táblázat érthetetlen zagyvalékot ad. Az AI nem fogja tudni, hogy a C oszlop eurós összeget jelöl, vagy hogy az 1. sor fejléc.

A dokumentumok előkészítése: a láthatatlan munka

Itt lép be a dokumentumfeldolgozási folyamat. Mielőtt egyetlen kérdést is fel lehet tenni az AI-nak, minden dokumentum több átalakítási lépésen megy át.

1. lépés — Szövegkinyerés

Speciális eszközök „megnyitják” a fájlt, és kinyerik a tiszta szöveget, megpróbálva visszaállítani a logikus olvasási sorrendet. Wordhoz úgynevezett XML-parszereket használnak. PDF-hez PyMuPDF vagy PDFPlumber könyvtárakat. Excelhez openpyxl vagy pandas eszközöket.

Ez a lépés egymagában már a formázási problémák nagy részét ki tudja javítani — de nem tévedhetetlen, különösen összetett PDF-ek esetén.

2. lépés — Tisztítás és normalizálás

A kinyert szöveg ritkán tiszta. Felesleges sortöréseket, formázásból eredő speciális karaktereket, minden oldalon ismétlődő fejléceket és lábléceket, egy mondat közepébe ágyazott oldalszámokat talál az ember…

Mindezt meg kell tisztítani: a felesleges részek eltávolítása, a karakterkódolás javítása, az elválasztójellel törött szavak visszaállítása, a szóközök normalizálása és még számos feladat áll elő ekkor.

3. lépés — Darabokra osztás (chunking)

Egy 80 oldalas szerződés szövegre konvertálva több tízezer szót jelent. Az LLM azonban nem képes korlátlan mennyiségű szöveget egyszerre feldolgozni — van egy korlátozott terjedelme, úgynevezett „kontextusablaka”, ami olyan, mint egy munkamemória.

A megoldás: optimális méretű blokkokra, úgynevezett chunkokra osztani a dokumentumot. Ideális esetben minden chunk egy koherens értelmi egységet képvisel — egy törvénycikket, egy szerződéses záradékot, egy tematikus bekezdést. Sem túl rövid (elvész a kontextus), sem túl hosszú (meghaladja a feldolgozási kapacitást).

4. lépés — Vektorizálás és indexelés

Ez a leginkább technikai jellegű lépés, és a legfontosabb a RAG (Retrieval-Augmented Generation) rendszerek, mint az ArkeoAI esetén.

Minden szövegchunkot egy vektornak nevezett matematikai reprezentációvá alakítanak — egy számlistává, amely a szöveg szemantikai jelentését rögzíti. Két azonos értelmű mondat hasonló vektorokkal rendelkezik, még ha különböző szavakat használnak is.

Ezeket a vektorokat vektorindexben tárolják (mint a FAISS, amelyet az ArkeoAI is használ). Amikor kérdést teszünk fel, azt a kérdést is vektorrá alakítja a rendszer, majd megkeresi azokat a chunkokat, amelyek jelentése a legközelebb áll — mielőtt továbbítaná őket az AI-nak, hogy megfogalmazza a választ.

Miért ez az egész munka?

Mert az AI válaszának minősége teljes mértékben a számára biztosított szöveg minőségétől függ. Ez a „garbage in, garbage out” elv: ha zagyvalékot adunk az AI-nak, zagyvalékot kapunk vissza.

Egy rosszul előkészített dokumentum az AI-t arra kényszerítheti, hogy:

Elmulasszon olyan információkat, amelyek valójában benne vannak a fájlban
Összekeverjen különböző szakaszokból származó adatokat
Valószínűnek tűnő, de helytelen válaszokat találjon ki (hallucinációs jelenség)
Képtelen legyen megtalálni egy adott záradékot egy hosszú szerződésben

Pontosan ezért integrál az ArkeoAI szigorú indexelési folyamatot, amelyet több száz vagy ezer jogi, könyvelési vagy adminisztratív dokumentum feldolgozására terveztek, és amely biztosítja, hogy az AI-nak mindig tiszta, koherens és navigálható dokumentumbázisa legyen.

Összefoglalás

A mesterséges intelligencia nem úgy olvassa a fájlokat, ahogyan mi, emberek. Szüksége van arra, hogy ezeket a fájlokat tiszta szöveggé legyenek lefordítva, megtisztítva, értelmesen darabokra osztva és indexelve, hogy a releváns információt azonnal meg tudja találni.

Ez az előkészítő munka — a végfelhasználó számára ugyan láthatatlan —m de pontosan az az alap, amelyen egy professzionális AI-asszisztens egész megbízhatósága nyugszik. Enélkül az AI tapogatózik. Ezekkel ellátva pedig pontosan válaszol.

Miért nem tudja az AI közvetlenül olvasni a fájlokat?

Az AI nem „olvas”. Számít.