GLOSSAIRE IA · TECHNIQUE
Token
Jeton de texte
Un token est l'unité de base que manipule un modèle de langage. C'est un fragment de mot, plus petit qu'un mot entier. En français, un token vaut environ trois quarts de mot. Les modèles comptent, facturent et limitent tout en tokens.
- Définition
- Fragment de texte unitaire
- Équivalent français
- ≈ 0,75 mot par token
- Repère
- 1 000 mots ≈ 1 300 tokens
- Sert à mesurer
- Contexte et facturation
- Découpage
- Tokenisation
- Catégorie
- Notion technique
Pourquoi le token, et pas le mot
Un modèle de langage ne lit pas des mots. Il lit des tokens.
Pour traiter du texte, un modèle de langage le découpe en petites unités appelées tokens. Un token peut être un mot court, une partie de mot long, un signe de ponctuation ou même une espace.
Ce découpage permet au modèle de gérer un vocabulaire immense avec un nombre raisonnable d'unités. Un mot rare comme « anticonstitutionnellement » sera coupé en plusieurs tokens, là qu'un mot courant comme « table » tiendra en un seul.
Pour estimer un volume, retenez un repère simple : en français, un token vaut environ trois quarts de mot. Un texte de mille mots représente donc à peu près mille trois cents tokens. C'est suffisant pour anticiper la plupart des limites.
Ce que le token permet de mesurer
Le token n'est pas qu'un détail technique. C'est l'unité de compte de toute l'IA générative.
-
La fenêtre de contexte
La quantité de texte qu'un modèle traite en une fois s'exprime en tokens. Un contexte d'un million de tokens, c'est environ 750 000 mots.
-
Le prix
Les modèles accessibles par interface de programmation se facturent au token, en entrée comme en sortie. Plus le texte est long, plus le coût monte.
-
La vitesse
Une réponse se construit token après token. Le nombre de tokens à générer influence directement le temps d'affichage.
-
Les limites de réponse
Beaucoup d'outils plafonnent la longueur d'une réponse par un nombre maximal de tokens en sortie.
Comment un texte devient des tokens
Le passage du texte aux tokens, et inversement, encadre tout le travail du modèle.
- 01
Découpage
Votre texte est segmenté en tokens par un outil appelé tokeniseur, selon un vocabulaire fixé à l'avance.
- 02
Conversion en nombres
Chaque token reçoit un identifiant numérique. Le modèle ne manipule que ces nombres, jamais les lettres directement.
- 03
Traitement
Le modèle calcule, token après token, lequel a le plus de chances de venir ensuite dans la séquence.
- 04
Reconversion
Les tokens générés sont retraduits en texte lisible et affichés progressivement à l'écran.
Estimer un volume en tokens
Quelques ordres de grandeur évitent les mauvaises surprises de coût ou de limite.
-
Une page de texte
Une page standard d'environ 500 mots représente à peu près 650 tokens.
-
Un long document
Un rapport de 50 pages tourne autour de 35 000 tokens, encore très loin des limites des modèles de 2026.
-
Une conversation
Chaque échange s'ajoute aux précédents. Une longue discussion consomme des tokens à chaque nouveau message.
-
Les langues diffèrent
Le ratio token-mot varie selon la langue. L'anglais est souvent un peu plus économe que le français.
EN CLAIR
Pour le dire simplement
Le token est au modèle de langage ce que le mot est au compteur d'un traducteur professionnel. Vous raisonnez en pages et en idées, le modèle facture et compte en tokens. Connaître la règle des trois quarts de mot suffit à passer de l'un à l'autre sans se tromper.
Ce qu'il faut arrêter de croire.
-
IDÉE REÇUE
Un token, c'est un mot.
EN RÉALITÉ
Pas tout à fait. Un token est généralement plus petit qu'un mot. Les mots longs ou rares sont découpés en plusieurs tokens.
-
IDÉE REÇUE
Le nombre de tokens n'a aucune importance pour moi.
EN RÉALITÉ
Il détermine le coût, la vitesse et la limite de contexte. Dès qu'on travaille sur de longs documents, il devient un repère utile.
-
IDÉE REÇUE
Seul le texte que j'envoie compte.
EN RÉALITÉ
La réponse du modèle consomme aussi des tokens. La facturation et les limites portent sur l'entrée et la sortie réunies.
-
IDÉE REÇUE
Le découpage en tokens est le même pour toutes les langues.
EN RÉALITÉ
Le ratio varie. Une même idée peut coûter plus de tokens dans une langue que dans une autre.
Questions fréquentes.
Combien de mots fait un token ?
En français, un token vaut en moyenne environ trois quarts de mot. Autrement dit, mille mots représentent à peu près mille trois cents tokens. C'est une estimation suffisante pour la plupart des usages courants.
Pourquoi les modèles comptent-ils en tokens et pas en mots ?
Parce que le token est l'unité réelle que le modèle traite en interne. Découper le texte en fragments plus petits que le mot permet de gérer un vocabulaire immense, y compris les mots rares, sans exploser la taille du système.
Le nombre de tokens influence-t-il le prix ?
Oui, directement. Les modèles utilisés par interface de programmation se facturent au token, en entrée et en sortie. Un texte plus long coûte mécaniquement plus cher à traiter.
Comment connaître le nombre de tokens d'un texte ?
La plupart des plateformes proposent un outil de comptage. À défaut, la règle des trois quarts de mot par token donne déjà une estimation fiable pour anticiper coûts et limites.
Quel rapport entre les tokens et la fenêtre de contexte ?
La fenêtre de contexte est la quantité maximale de tokens qu'un modèle peut traiter en une fois. Token et fenêtre de contexte se mesurent donc dans la même unité.
Termes liés.
Révisé le 15 mai 2026