Aller au contenu
COCOWORK, INC.

GLOSSAIRE IA · TECHNIQUE

Token

Jeton de texte

Un token est l'unité de base que manipule un modèle de langage. C'est un fragment de mot, plus petit qu'un mot entier. En français, un token vaut environ trois quarts de mot. Les modèles comptent, facturent et limitent tout en tokens.

Définition
Fragment de texte unitaire
Équivalent français
≈ 0,75 mot par token
Repère
1 000 mots ≈ 1 300 tokens
Sert à mesurer
Contexte et facturation
Découpage
Tokenisation
Catégorie
Notion technique
DÉFINITION [Token.1]

Pourquoi le token, et pas le mot

Un modèle de langage ne lit pas des mots. Il lit des tokens.

Pour traiter du texte, un modèle de langage le découpe en petites unités appelées tokens. Un token peut être un mot court, une partie de mot long, un signe de ponctuation ou même une espace.

Ce découpage permet au modèle de gérer un vocabulaire immense avec un nombre raisonnable d'unités. Un mot rare comme « anticonstitutionnellement » sera coupé en plusieurs tokens, là qu'un mot courant comme « table » tiendra en un seul.

Pour estimer un volume, retenez un repère simple : en français, un token vaut environ trois quarts de mot. Un texte de mille mots représente donc à peu près mille trois cents tokens. C'est suffisant pour anticiper la plupart des limites.

RÔLE [Token.2]

Ce que le token permet de mesurer

Le token n'est pas qu'un détail technique. C'est l'unité de compte de toute l'IA générative.

  • La fenêtre de contexte

    La quantité de texte qu'un modèle traite en une fois s'exprime en tokens. Un contexte d'un million de tokens, c'est environ 750 000 mots.

  • Le prix

    Les modèles accessibles par interface de programmation se facturent au token, en entrée comme en sortie. Plus le texte est long, plus le coût monte.

  • La vitesse

    Une réponse se construit token après token. Le nombre de tokens à générer influence directement le temps d'affichage.

  • Les limites de réponse

    Beaucoup d'outils plafonnent la longueur d'une réponse par un nombre maximal de tokens en sortie.

MÉCANIQUE [Token.3]

Comment un texte devient des tokens

Le passage du texte aux tokens, et inversement, encadre tout le travail du modèle.

  1. 01

    Découpage

    Votre texte est segmenté en tokens par un outil appelé tokeniseur, selon un vocabulaire fixé à l'avance.

  2. 02

    Conversion en nombres

    Chaque token reçoit un identifiant numérique. Le modèle ne manipule que ces nombres, jamais les lettres directement.

  3. 03

    Traitement

    Le modèle calcule, token après token, lequel a le plus de chances de venir ensuite dans la séquence.

  4. 04

    Reconversion

    Les tokens générés sont retraduits en texte lisible et affichés progressivement à l'écran.

REPÈRES [Token.4]

Estimer un volume en tokens

Quelques ordres de grandeur évitent les mauvaises surprises de coût ou de limite.

  • Une page de texte

    Une page standard d'environ 500 mots représente à peu près 650 tokens.

  • Un long document

    Un rapport de 50 pages tourne autour de 35 000 tokens, encore très loin des limites des modèles de 2026.

  • Une conversation

    Chaque échange s'ajoute aux précédents. Une longue discussion consomme des tokens à chaque nouveau message.

  • Les langues diffèrent

    Le ratio token-mot varie selon la langue. L'anglais est souvent un peu plus économe que le français.

EN CLAIR

Pour le dire simplement

Le token est au modèle de langage ce que le mot est au compteur d'un traducteur professionnel. Vous raisonnez en pages et en idées, le modèle facture et compte en tokens. Connaître la règle des trois quarts de mot suffit à passer de l'un à l'autre sans se tromper.

IDÉES REÇUES [Token.MYTH]

Ce qu'il faut arrêter de croire.

  • IDÉE REÇUE

    Un token, c'est un mot.

    EN RÉALITÉ

    Pas tout à fait. Un token est généralement plus petit qu'un mot. Les mots longs ou rares sont découpés en plusieurs tokens.

  • IDÉE REÇUE

    Le nombre de tokens n'a aucune importance pour moi.

    EN RÉALITÉ

    Il détermine le coût, la vitesse et la limite de contexte. Dès qu'on travaille sur de longs documents, il devient un repère utile.

  • IDÉE REÇUE

    Seul le texte que j'envoie compte.

    EN RÉALITÉ

    La réponse du modèle consomme aussi des tokens. La facturation et les limites portent sur l'entrée et la sortie réunies.

  • IDÉE REÇUE

    Le découpage en tokens est le même pour toutes les langues.

    EN RÉALITÉ

    Le ratio varie. Une même idée peut coûter plus de tokens dans une langue que dans une autre.

FAQ [Token.FAQ]

Questions fréquentes.

Combien de mots fait un token ?

En français, un token vaut en moyenne environ trois quarts de mot. Autrement dit, mille mots représentent à peu près mille trois cents tokens. C'est une estimation suffisante pour la plupart des usages courants.

Pourquoi les modèles comptent-ils en tokens et pas en mots ?

Parce que le token est l'unité réelle que le modèle traite en interne. Découper le texte en fragments plus petits que le mot permet de gérer un vocabulaire immense, y compris les mots rares, sans exploser la taille du système.

Le nombre de tokens influence-t-il le prix ?

Oui, directement. Les modèles utilisés par interface de programmation se facturent au token, en entrée et en sortie. Un texte plus long coûte mécaniquement plus cher à traiter.

Comment connaître le nombre de tokens d'un texte ?

La plupart des plateformes proposent un outil de comptage. À défaut, la règle des trois quarts de mot par token donne déjà une estimation fiable pour anticiper coûts et limites.

Quel rapport entre les tokens et la fenêtre de contexte ?

La fenêtre de contexte est la quantité maximale de tokens qu'un modèle peut traiter en une fois. Token et fenêtre de contexte se mesurent donc dans la même unité.

← Retour au glossaire

Révisé le 15 mai 2026