GLOSSAIRE IA · TECHNIQUE
Fenêtre de contexte
Context window
La fenêtre de contexte est la quantité maximale de texte qu'un modèle de langage peut prendre en compte en une seule fois. Elle se mesure en tokens et réunit votre demande, les documents joints et l'historique de la conversation. Au-delà, le modèle perd le début.
- Nom anglais
- Context window
- Unité de mesure
- Le token
- Claude Opus 4.7
- 1 million de tokens
- Gemini 3
- ≈ 1 million de tokens
- Contient
- Demande + documents + historique
- Catégorie
- Notion technique
La mémoire de travail du modèle
La fenêtre de contexte, c'est tout ce que le modèle a sous les yeux à l'instant où il répond.
Un modèle de langage ne garde pas un souvenir permanent de vos échanges. À chaque réponse, il ne considère que le texte présent dans sa fenêtre de contexte : votre message, les fichiers que vous avez joints et l'historique récent de la conversation.
Cette fenêtre a une taille maximale, exprimée en tokens. Tant que le total reste dans la limite, le modèle voit l'ensemble. Quand le total dépasse la limite, le contenu le plus ancien sort de la fenêtre et n'est plus pris en compte.
C'est pour cela qu'une très longue conversation finit par « oublier » son point de départ : les premiers messages sont sortis de la fenêtre. Le modèle ne les a pas effacés, il ne les voit simplement plus.
Quelle taille de fenêtre en 2026
Les fenêtres ont énormément grandi. Ce qui était une contrainte forte est devenu un confort.
-
Un million de tokens
Claude Opus 4.7 et Gemini 3 traitent autour d'un million de tokens, soit environ 750 000 mots ou plusieurs milliers de pages.
-
Ce que cela permet
Charger un livre entier, un gros dossier de contrats ou une base documentaire complète, et interroger le tout en une fois.
-
Une limite toujours réelle
Aussi large soit-elle, la fenêtre reste finie. Les corpus très volumineux dépassent encore les modèles les plus généreux.
-
Grande fenêtre, grand coût
Remplir une fenêtre d'un million de tokens consomme beaucoup de tokens, donc coûte cher à chaque requête.
Ce qui se passe quand la fenêtre est pleine
Dépasser la fenêtre ne provoque pas d'erreur visible, et c'est précisément le piège.
- 01
Le texte s'accumule
À chaque message, votre nouvelle demande s'ajoute à tout l'historique déjà présent dans la fenêtre.
- 02
La limite est atteinte
Quand le total dépasse la taille maximale, le contenu le plus ancien est écarté pour faire de la place.
- 03
Le modèle perd le début
Les premières consignes ou informations ne sont plus visibles. Le modèle répond sans elles, souvent sans le signaler.
- 04
La réponse dérive
Sans son contexte initial, le modèle peut contredire des consignes données plus tôt ou répéter ce qui a déjà été dit.
Bien utiliser la fenêtre de contexte
Quelques réflexes simples évitent les pertes d'information sur les tâches longues.
-
Rappeler les consignes clés
Sur une longue conversation, redonner périodiquement les instructions importantes les remet dans la fenêtre.
-
Repartir d'une conversation neuve
Pour un nouveau sujet, ouvrir un nouvel échange évite de traîner un historique inutile qui consomme la fenêtre.
-
Préférer le RAG pour les gros corpus
Plutôt que tout charger, le RAG sélectionne les seuls passages utiles à placer dans la fenêtre.
-
Surveiller les documents joints
Un fichier volumineux occupe une grande part de la fenêtre. Mieux vaut ne joindre que ce qui sert vraiment.
EN CLAIR
Pour le dire simplement
La fenêtre de contexte est le bureau du modèle. Tout ce qui est posé dessus, il le voit et l'utilise. Mais le bureau a une taille fixe : quand vous y déposez un nouveau document, le plus ancien tombe par terre. Le modèle ne l'a pas jeté, il ne l'a simplement plus sous les yeux.
Ce qu'il faut arrêter de croire.
-
IDÉE REÇUE
Le modèle se souvient de toutes nos conversations passées.
EN RÉALITÉ
Non. Il ne voit que ce qui tient dans la fenêtre de contexte du moment. Au-delà, le contenu ancien n'est plus pris en compte.
-
IDÉE REÇUE
Une fenêtre d'un million de tokens, c'est illimité.
EN RÉALITÉ
C'est très large, mais fini. Les très gros corpus la dépassent encore, et la remplir coûte cher à chaque requête.
-
IDÉE REÇUE
Si je dépasse la limite, le modèle me prévient.
EN RÉALITÉ
Le plus souvent, non. Le contenu ancien sort silencieusement de la fenêtre et la réponse dérive sans avertissement.
-
IDÉE REÇUE
Plus la fenêtre est grande, meilleure est la réponse.
EN RÉALITÉ
Une grande fenêtre aide, mais un contexte encombré d'informations inutiles peut au contraire diluer l'attention du modèle.
Questions fréquentes.
Qu'est-ce que la fenêtre de contexte d'un LLM ?
C'est la quantité maximale de texte qu'un modèle de langage peut prendre en compte en une seule fois. Elle se mesure en tokens et regroupe votre demande, les documents joints et l'historique de la conversation.
Quelle est la taille des fenêtres de contexte en 2026 ?
Les modèles de pointe atteignent environ un million de tokens, comme Claude Opus 4.7 ou Gemini 3, soit à peu près 750 000 mots. C'est largement de quoi traiter un livre ou un dossier volumineux en une seule requête.
Que se passe-t-il si je dépasse la fenêtre de contexte ?
Le contenu le plus ancien sort de la fenêtre pour faire de la place. Le modèle ne le voit plus et répond sans lui, généralement sans le signaler. C'est pourquoi une très longue conversation finit par oublier son début.
Faut-il toujours utiliser la plus grande fenêtre possible ?
Pas nécessairement. Une grande fenêtre coûte plus cher et un contexte rempli d'informations inutiles peut nuire à la précision. Mieux vaut n'y placer que ce qui sert à la tâche.
Quelle différence entre la fenêtre de contexte et la mémoire d'un assistant ?
La fenêtre de contexte est une limite technique propre à chaque requête. Certains assistants ajoutent par-dessus une fonction de mémoire qui réinjecte des informations utiles d'une conversation à l'autre, ce qui est un mécanisme distinct.
Termes liés.
Révisé le 15 mai 2026