Ce qui se passe vraiment quand votre IA réfléchit

Quand on parle de performance d’un ordinateur, le réflexe habituel est de regarder le processeur : « combien de GHz ? combien de cœurs ? ». C’est logique pour de nombreuses tâches — monter une vidéo, jouer à un jeu vidéo, faire tourner un tableur complexe.

Mais pour faire fonctionner un modèle de langage comme ceux qu’utilise ArkeoAI, cette logique est complètement inversée. Ce n’est pas la vitesse du processeur qui détermine si ça fonctionne — c’est la quantité de mémoire vive disponible. Et la différence n’est pas anecdotique : un modèle peut simplement refuser de démarrer si la RAM est insuffisante, peu importe la rapidité du CPU.

Voici pourquoi.

Un modèle IA, c’est avant tout un objet très lourd

Un modèle de langage comme Mistral, LLaMA ou Gemma n’est pas un programme classique. C’est un fichier de paramètres mathématiques — des milliards de nombres appelés poids — qui encodent l’ensemble de ce que le modèle « sait ». Ces poids sont le résultat d’un entraînement sur des quantités astronomiques de texte.

La taille de ces fichiers est directement proportionnelle à la capacité du modèle. Un petit modèle de 7 milliards de paramètres pèse environ 4 à 8 Go. Un modèle plus capable de 13 milliards de paramètres dépasse facilement les 10 à 16 Go. Et les grands modèles de 70 milliards de paramètres peuvent atteindre 40 à 60 Go.

Ce poids brut doit tenir quelque part pendant l’exécution. Et cet endroit, c’est la RAM.

Pourquoi tout doit tenir en mémoire vive ?

Le processeur ne stocke rien — il calcule

Le rôle du processeur (CPU) est de faire des calculs : des additions, des multiplications, des comparaisons. Il est très rapide, mais il ne retient rien. Pour effectuer un calcul, il doit aller chercher les données en mémoire, les traiter, et renvoyer le résultat.

Imaginez un cuisinier dans une cuisine. Le processeur, c’est le cuisinier. Il peut éplucher, couper, mélanger très vite. Mais il ne peut pas tenir dans ses mains 40 kilos d’ingrédients à la fois. Il a besoin d’un plan de travail suffisamment grand pour poser tout ce dont il a besoin à portée de main.

Ce plan de travail, c’est la RAM.

Le problème du disque dur : la vitesse

Vous vous demandez peut-être : et si le modèle ne tient pas en RAM, pourquoi ne pas utiliser le disque dur ? Techniquement, c’est possible — c’est ce qu’on appelle le swap ou l’offloading sur disque. En pratique, c’est quasi inutilisable.

Un disque dur classique (HDD) est environ 100 000 fois plus lent qu’une barrette de RAM pour accéder aux données. Même un SSD NVMe rapide est encore 10 à 50 fois plus lent que la RAM. Pour générer un seul mot de réponse, le modèle doit consulter ses paramètres des dizaines de milliers de fois. Si chaque consultation nécessite d’aller chercher des données sur disque, le délai devient insupportable.

Résultat concret : un modèle partiellement sur disque peut mettre plusieurs minutes à générer une seule phrase. Ce n’est plus un assistant — c’est une attente.

Ce qui se passe concrètement lors d’une inférence

Quand vous posez une question à l’IA, voici ce qui se passe techniquement, de manière simplifiée :

Votre question est tokenisée — découpée en petites unités de texte appelées tokens.
Ces tokens sont transformés en vecteurs numériques.
Ces vecteurs traversent les couches du modèle — des dizaines, parfois des centaines de couches de calcul matriciel. Chaque couche utilise une partie des poids du modèle.
À la sortie de chaque couche, le résultat est utilisé comme entrée de la suivante.
Au bout du chemin, le modèle produit un token de réponse. Puis recommence pour le token suivant, et ainsi de suite jusqu’à la fin de la réponse.

À chaque étape, le processeur doit accéder aux poids correspondants à la couche en cours. Si ces poids ne sont pas en RAM, il faut les charger depuis le disque — et tout s’arrête. L’ensemble du modèle doit donc être chargé en mémoire vive avant même que la première réponse commence à s’écrire.

Le CPU n’est pas inutile — mais il n’est pas le goulot d’étranglement

Attention, cela ne veut pas dire que le processeur ne compte pas. Il calcule effectivement les opérations mathématiques de chaque couche — et un CPU plus rapide ou plus puissant produit des tokens plus vite, une fois le modèle chargé.

Mais voici la hiérarchie réelle des priorités pour faire tourner un LLM sur un ordinateur standard :

Priorité 1 — RAM suffisante : sans ça, le modèle ne démarre pas ou devient inutilisable.
Priorité 2 — Bande passante mémoire : la vitesse à laquelle le CPU peut lire la RAM compte autant que la fréquence du processeur lui-même.
Priorité 3 — Vitesse du CPU : augmente le débit de tokens par seconde une fois le modèle correctement chargé.

C’est d’ailleurs pour cette raison que les GPU (cartes graphiques) sont si efficaces pour les modèles IA : ils disposent d’une mémoire embarquée (VRAM) avec une bande passante exceptionnellement élevée, capable de servir les poids du modèle au processeur graphique à une vitesse qu’un CPU standard avec de la RAM classique ne peut pas atteindre.

Combien de RAM faut-il vraiment ?

Une règle pratique pour estimer le besoin en RAM : comptez environ 1 Go de RAM par milliard de paramètres, en utilisant des modèles quantifiés (compressés) en format 4 bits. Avec une compression moins agressive (8 bits), doublez ce chiffre.

Modèle 7B quantifié 4-bit : environ 4 à 5 Go de RAM — fonctionne sur un ordinateur de bureau standard avec 8 Go de RAM.
Modèle 13B quantifié 4-bit : environ 8 à 10 Go — nécessite 16 Go de RAM pour fonctionner confortablement.
Modèle 34B quantifié 4-bit : environ 20 Go — requiert au minimum 32 Go de RAM.
Modèle 70B quantifié 4-bit : environ 40 Go — nécessite 64 Go ou plus.

C’est pourquoi les mini PC utilisés par ArkeoAI sont systématiquement configurés avec 32 à 64 Go de RAM — non par excès de précaution, mais par nécessité fonctionnelle. C’est ce qui permet de faire tourner des modèles suffisamment capables pour un usage professionnel sérieux, sans dépendre d’internet, sans envoyer vos données à l’extérieur.

En résumé

Un modèle de langage, c’est d’abord un objet lourd à porter en mémoire. Avant de calculer quoi que ce soit, il faut que l’ensemble de ses paramètres soit accessible instantanément — et seule la RAM offre la vitesse nécessaire pour ça.

Un processeur rapide avec trop peu de RAM, c’est comme un cuisinier de compétition dans une cuisine sans plan de travail : il peut avoir les mains les plus agiles du monde, il ne pourra pas travailler. À l’inverse, une machine avec beaucoup de RAM et un CPU modeste produira des réponses plus lentes — mais elle produira des réponses.

La RAM est la condition nécessaire. La vitesse CPU est l’optimisation. Dans cet ordre, et pas l’inverse.

RAM vs CPU : pourquoi la mémoire prime sur la puissance de calcul ?

Un modèle IA, c’est avant tout un objet très lourd

Pourquoi tout doit tenir en mémoire vive ?

Le processeur ne stocke rien — il calcule

Le problème du disque dur : la vitesse

Ce qui se passe concrètement lors d’une inférence

Le CPU n’est pas inutile — mais il n’est pas le goulot d’étranglement

Combien de RAM faut-il vraiment ?

En résumé

C’est quoi un token ?

Que signifient les chiffres des modèles d’IA ? 3B, 7B, 20B…

La bibliothécaire qui ne perd jamais rien : comprendre comment une IA lit vos documents

Pourquoi l’IA ne peut pas lire vos fichiers directement ?

Pourquoi l’IA échoue dans tant d’entreprises ?

L’IA en nuage : un risque pour vos données ?

Pages

Un modèle IA, c’est avant tout un objet très lourd

Pourquoi tout doit tenir en mémoire vive ?

Le processeur ne stocke rien — il calcule

Le problème du disque dur : la vitesse

Ce qui se passe concrètement lors d’une inférence

Le CPU n’est pas inutile — mais il n’est pas le goulot d’étranglement

Combien de RAM faut-il vraiment ?

En résumé

Publications similaires

Pages