C’est quoi un token ?
L’unité de base que l’IA utilise pour lire, comprendre et écrire
Vous avez peut-être remarqué que les services d’IA parlent de « tokens » : limite de tokens, coût par token, fenêtre de contexte en tokens… Ce mot revient partout, mais il est rarement expliqué clairement.
Pourtant, comprendre ce qu’est un token, c’est comprendre comment un modèle de langage perçoit le texte — et pourquoi il se comporte parfois de façon surprenante. Pas besoin d’être informaticien : une bonne métaphore suffit.
Le problème de départ : l’IA ne lit pas des lettres, ni des mots
Quand vous lisez une phrase, votre cerveau découpe naturellement le texte en mots, en groupes de mots, en idées. C’est un processus intuitif, appris dès l’enfance.
Un modèle de langage ne peut pas faire ça directement. Il ne comprend que des nombres — tout doit être converti en nombres avant d’entrer dans le modèle. La question est donc : comment convertir du texte en nombres de la façon la plus efficace possible ?
Deux approches naïves se présentent :
- Lettre par lettre — simple, mais très inefficace. La phrase « bonjour » devient 7 unités distinctes, sans lien entre elles. Le modèle devrait apprendre que b-o-n-j-o-u-r forment un tout.
- Mot par mot — plus logique, mais problématique. Il existe des centaines de milliers de mots différents en français, sans compter les conjugaisons, les pluriels, les noms propres, les mots étrangers. Le dictionnaire devient ingérable.
La solution retenue par les LLMs modernes est un compromis élégant : les tokens. Des fragments de texte de taille variable, plus grands qu’une lettre, souvent plus petits qu’un mot entier.
Un token, concrètement
Un token est un morceau de texte que le modèle a appris à reconnaître comme une unité. Ce morceau peut être :
- Un mot entier courant : « maison », « contrat », « client »
- Une partie de mot : le suffixe « -ation » dans « résiliation », « notification », « validation »
- Un mot avec sa ponctuation : « l’ », « d’ », « qu’ »
- Un espace suivi d’un mot : » bonjour » (avec l’espace devant)
- Un caractère seul pour les symboles rares : « § », « € », « ² »
En pratique, pour un texte en français ou en anglais, un token représente en moyenne 3 à 5 caractères — soit environ 0,75 mot. Dit autrement : 100 tokens correspondent approximativement à 75 mots, ou à un court paragraphe.
Exemple concret. La phrase « Le bail prend fin le 31 décembre. » sera découpée en quelque chose comme : [ Le ] [ bail ] [ prend ] [ fin ] [ le ] [ 31 ] [ décembre ] [ . ] — soit environ 8 tokens. Mais le mot « résiliation » pourrait être découpé en [ résil ] [ iation ] — 2 tokens — parce que le modèle n’a pas appris ce mot comme une unité entière aussi fréquente.
Comment ce découpage est-il décidé ?
L’entraînement du tokenizer
Avant même qu’un modèle de langage soit entraîné, ses créateurs construisent un tokenizer — un outil de découpage — en analysant d’énormes volumes de texte. L’algorithme cherche les séquences de caractères les plus fréquentes et les plus utiles, et leur attribue un identifiant numérique unique.
Le résultat est un vocabulaire fixe de tokens, typiquement entre 30 000 et 100 000 entrées. Chaque token a son numéro. Quand vous envoyez une phrase au modèle, le tokenizer la convertit en une liste de ces numéros — et c’est cette liste de nombres que le modèle traite réellement.
Pourquoi certains mots coûtent plus de tokens que d’autres
Les mots très courants dans la langue sur laquelle le modèle a été entraîné ont tendance à être des tokens entiers. Les mots rares, techniques, étrangers ou très longs sont souvent découpés en plusieurs tokens.
Cela a des conséquences pratiques :
- Un texte juridique dense en termes techniques consommera plus de tokens qu’un texte conversationnel de même longueur.
- Les modèles entraînés principalement sur de l’anglais tokenisent le français moins efficacement — un mot français peut nécessiter davantage de tokens que son équivalent anglais.
- Les noms propres, les acronymes et les mots inventés sont souvent découpés en fragments inhabituels, ce qui peut compliquer leur traitement par le modèle.
La fenêtre de contexte : la mémoire immédiate du modèle
Chaque modèle de langage a une limite sur le nombre de tokens qu’il peut traiter en une seule fois. C’est ce qu’on appelle la fenêtre de contexte ou context window.
Cette fenêtre inclut tout : votre question, l’historique de la conversation, les documents que vous avez fournis, et la réponse en cours de génération. Une fois cette limite atteinte, le modèle ne peut plus « voir » ce qui se trouve au-delà.
Pour donner des ordres de grandeur courants :
- Un modèle avec une fenêtre de 4 096 tokens peut traiter environ 3 000 mots — soit quelques pages de document.
- Une fenêtre de 32 000 tokens correspond à environ 25 000 mots — un long rapport ou une série d’échanges.
- Les modèles les plus récents atteignent 128 000 tokens ou plus — soit l’équivalent d’un roman entier.
C’est pour cette raison que, dans des systèmes comme ArkeoAI, les documents ne sont pas envoyés en bloc au modèle. Seuls les extraits les plus pertinents — identifiés par le système RAG — sont transmis, afin de ne pas saturer la fenêtre de contexte avec du texte inutile.
Tokens et facturation : pourquoi ça compte
Pour les services d’IA en ligne (ChatGPT, Claude via API, etc.), le coût est calculé au token. Chaque token entrant (votre question + les documents) et chaque token sortant (la réponse générée) est compté et facturé.
Dans un contexte professionnel avec des volumes importants — des dizaines de consultations par jour sur des documents longs — ce comptage devient économiquement significatif. Un document de 50 pages peut représenter 30 000 à 50 000 tokens rien qu’en entrée.
C’est l’un des avantages concrets d’une solution locale comme ArkeoAI : aucune facturation au token. Le modèle tourne sur votre propre matériel, sans compteur qui tourne à chaque échange.
En résumé
Un token est l’unité fondamentale de perception du texte pour un modèle de langage — ni une lettre, ni forcément un mot entier, mais un fragment de texte auquel correspond un numéro dans le vocabulaire du modèle.
Tout ce que vous écrivez à l’IA est d’abord converti en une suite de tokens. Tout ce que l’IA vous répond est généré token par token — littéralement, le modèle « choisit » le token suivant le plus probable à chaque étape, jusqu’à la fin de la réponse.
Comprendre les tokens, c’est comprendre les limites réelles d’un LLM : il ne pense pas en phrases, il calcule des probabilités sur des séquences de fragments. Ce qui est déjà remarquable — à condition de savoir comment lui parler.
