Aller au contenu
COCOWORK, INC.

GLOSSAIRE IA · TECHNIQUE

Fenêtre de contexte

Context window

La fenêtre de contexte est la quantité maximale de texte qu'un modèle de langage peut prendre en compte en une seule fois. Elle se mesure en tokens et réunit votre demande, les documents joints et l'historique de la conversation. Au-delà, le modèle perd le début.

Nom anglais
Context window
Unité de mesure
Le token
Claude Opus 4.7
1 million de tokens
Gemini 3
≈ 1 million de tokens
Contient
Demande + documents + historique
Catégorie
Notion technique
DÉFINITION [Fenêtre de contexte.1]

La mémoire de travail du modèle

La fenêtre de contexte, c'est tout ce que le modèle a sous les yeux à l'instant où il répond.

Un modèle de langage ne garde pas un souvenir permanent de vos échanges. À chaque réponse, il ne considère que le texte présent dans sa fenêtre de contexte : votre message, les fichiers que vous avez joints et l'historique récent de la conversation.

Cette fenêtre a une taille maximale, exprimée en tokens. Tant que le total reste dans la limite, le modèle voit l'ensemble. Quand le total dépasse la limite, le contenu le plus ancien sort de la fenêtre et n'est plus pris en compte.

C'est pour cela qu'une très longue conversation finit par « oublier » son point de départ : les premiers messages sont sortis de la fenêtre. Le modèle ne les a pas effacés, il ne les voit simplement plus.

REPÈRES [Fenêtre de contexte.2]

Quelle taille de fenêtre en 2026

Les fenêtres ont énormément grandi. Ce qui était une contrainte forte est devenu un confort.

  • Un million de tokens

    Claude Opus 4.7 et Gemini 3 traitent autour d'un million de tokens, soit environ 750 000 mots ou plusieurs milliers de pages.

  • Ce que cela permet

    Charger un livre entier, un gros dossier de contrats ou une base documentaire complète, et interroger le tout en une fois.

  • Une limite toujours réelle

    Aussi large soit-elle, la fenêtre reste finie. Les corpus très volumineux dépassent encore les modèles les plus généreux.

  • Grande fenêtre, grand coût

    Remplir une fenêtre d'un million de tokens consomme beaucoup de tokens, donc coûte cher à chaque requête.

MÉCANIQUE [Fenêtre de contexte.3]

Ce qui se passe quand la fenêtre est pleine

Dépasser la fenêtre ne provoque pas d'erreur visible, et c'est précisément le piège.

  1. 01

    Le texte s'accumule

    À chaque message, votre nouvelle demande s'ajoute à tout l'historique déjà présent dans la fenêtre.

  2. 02

    La limite est atteinte

    Quand le total dépasse la taille maximale, le contenu le plus ancien est écarté pour faire de la place.

  3. 03

    Le modèle perd le début

    Les premières consignes ou informations ne sont plus visibles. Le modèle répond sans elles, souvent sans le signaler.

  4. 04

    La réponse dérive

    Sans son contexte initial, le modèle peut contredire des consignes données plus tôt ou répéter ce qui a déjà été dit.

USAGES [Fenêtre de contexte.4]

Bien utiliser la fenêtre de contexte

Quelques réflexes simples évitent les pertes d'information sur les tâches longues.

  • Rappeler les consignes clés

    Sur une longue conversation, redonner périodiquement les instructions importantes les remet dans la fenêtre.

  • Repartir d'une conversation neuve

    Pour un nouveau sujet, ouvrir un nouvel échange évite de traîner un historique inutile qui consomme la fenêtre.

  • Préférer le RAG pour les gros corpus

    Plutôt que tout charger, le RAG sélectionne les seuls passages utiles à placer dans la fenêtre.

  • Surveiller les documents joints

    Un fichier volumineux occupe une grande part de la fenêtre. Mieux vaut ne joindre que ce qui sert vraiment.

EN CLAIR

Pour le dire simplement

La fenêtre de contexte est le bureau du modèle. Tout ce qui est posé dessus, il le voit et l'utilise. Mais le bureau a une taille fixe : quand vous y déposez un nouveau document, le plus ancien tombe par terre. Le modèle ne l'a pas jeté, il ne l'a simplement plus sous les yeux.

IDÉES REÇUES [Fenêtre de contexte.MYTH]

Ce qu'il faut arrêter de croire.

  • IDÉE REÇUE

    Le modèle se souvient de toutes nos conversations passées.

    EN RÉALITÉ

    Non. Il ne voit que ce qui tient dans la fenêtre de contexte du moment. Au-delà, le contenu ancien n'est plus pris en compte.

  • IDÉE REÇUE

    Une fenêtre d'un million de tokens, c'est illimité.

    EN RÉALITÉ

    C'est très large, mais fini. Les très gros corpus la dépassent encore, et la remplir coûte cher à chaque requête.

  • IDÉE REÇUE

    Si je dépasse la limite, le modèle me prévient.

    EN RÉALITÉ

    Le plus souvent, non. Le contenu ancien sort silencieusement de la fenêtre et la réponse dérive sans avertissement.

  • IDÉE REÇUE

    Plus la fenêtre est grande, meilleure est la réponse.

    EN RÉALITÉ

    Une grande fenêtre aide, mais un contexte encombré d'informations inutiles peut au contraire diluer l'attention du modèle.

FAQ [Fenêtre de contexte.FAQ]

Questions fréquentes.

Qu'est-ce que la fenêtre de contexte d'un LLM ?

C'est la quantité maximale de texte qu'un modèle de langage peut prendre en compte en une seule fois. Elle se mesure en tokens et regroupe votre demande, les documents joints et l'historique de la conversation.

Quelle est la taille des fenêtres de contexte en 2026 ?

Les modèles de pointe atteignent environ un million de tokens, comme Claude Opus 4.7 ou Gemini 3, soit à peu près 750 000 mots. C'est largement de quoi traiter un livre ou un dossier volumineux en une seule requête.

Que se passe-t-il si je dépasse la fenêtre de contexte ?

Le contenu le plus ancien sort de la fenêtre pour faire de la place. Le modèle ne le voit plus et répond sans lui, généralement sans le signaler. C'est pourquoi une très longue conversation finit par oublier son début.

Faut-il toujours utiliser la plus grande fenêtre possible ?

Pas nécessairement. Une grande fenêtre coûte plus cher et un contexte rempli d'informations inutiles peut nuire à la précision. Mieux vaut n'y placer que ce qui sert à la tâche.

Quelle différence entre la fenêtre de contexte et la mémoire d'un assistant ?

La fenêtre de contexte est une limite technique propre à chaque requête. Certains assistants ajoutent par-dessus une fonction de mémoire qui réinjecte des informations utiles d'une conversation à l'autre, ce qui est un mécanisme distinct.

← Retour au glossaire

Révisé le 15 mai 2026