GLOSSAIRE IA · TECHNIQUE
RAG
Retrieval-Augmented Generation
Le RAG, ou Retrieval-Augmented Generation, est une technique qui couple un modèle de langage à une base documentaire. Avant de répondre, le modèle va chercher les passages pertinents dans des documents fiables, puis rédige sa réponse à partir de ces extraits.
- Sigle
- Retrieval-Augmented Generation
- Traduction
- Génération augmentée par récupération
- Objectif
- Répondre sur des sources fiables
- Brique technique
- Base vectorielle
- Bénéfice principal
- Moins d'hallucinations
- Catégorie
- Architecture IA
Le problème que le RAG vient résoudre
Un modèle de langage ne connaît que ce qu'il a vu pendant son entraînement. Le RAG lui donne accès à vos documents.
Un modèle de langage seul a deux angles morts. Il ignore tout ce qui est postérieur à son entraînement, et il ne connaît pas vos données internes : contrats, procédures, fiches produit, historique client.
Le RAG comble ces deux manques. Au lieu de répondre uniquement de mémoire, le modèle interroge d'abord une base de documents que vous lui avez fournie. Il en extrait les passages utiles, puis rédige sa réponse en s'appuyant dessus.
Le gain est double : la réponse repose sur des sources précises et vérifiables, et le risque d'hallucination chute fortement, puisque le modèle travaille à partir d'un texte réel plutôt que de ses seules probabilités.
Comment fonctionne une réponse en RAG
Chaque réponse passe par une phase de recherche avant la phase de rédaction.
- 01
Indexation des documents
Vos documents sont découpés en fragments, convertis en représentations numériques et stockés dans une base vectorielle. C'est une préparation faite une seule fois.
- 02
Recherche du contexte
Quand une question arrive, le système la compare à la base et récupère les fragments de documents les plus proches du sens de la demande.
- 03
Augmentation de la requête
Ces fragments sont ajoutés à la question avant d'être transmis au modèle. Le modèle reçoit donc la demande accompagnée de sa matière première.
- 04
Génération de la réponse
Le modèle rédige sa réponse à partir des extraits fournis, souvent en citant les passages ou les documents d'origine.
À quoi sert le RAG en pratique
Le RAG est la brique de base de la plupart des assistants connectés à des données métier.
-
Assistant documentaire interne
Interroger en langage courant une base de procédures, de contrats ou de fiches techniques, et obtenir une réponse sourcée.
-
Support client augmenté
Répondre aux questions des clients en s'appuyant sur la documentation produit à jour plutôt que sur la mémoire du modèle.
-
Recherche dans de gros corpus
Retrouver une information précise dans des milliers de pages, sans avoir à tout charger dans la fenêtre de contexte.
-
Réponses traçables
Chaque affirmation peut être rattachée à un document source, ce qui rend la réponse vérifiable et auditable.
Ce que le RAG ne règle pas
Le RAG améliore la fiabilité, mais il ne supprime pas tout risque d'erreur.
-
La qualité dépend des sources
Si la base contient des documents faux ou périmés, le modèle s'appuiera dessus. Le RAG hérite de la qualité de son corpus.
-
La recherche peut manquer sa cible
Si l'étape de récupération ramène les mauvais fragments, le modèle répond à côté, même avec une base parfaite.
-
Le découpage des documents compte
Des fragments mal coupés perdent leur sens. La préparation du corpus reste un travail technique à part entière.
-
L'hallucination reste possible
Le modèle peut encore extrapoler au-delà des extraits fournis. Le RAG réduit le risque, il ne l'annule pas.
EN CLAIR
Pour le dire simplement
Sans RAG, vous interrogez un expert qui répond de mémoire. Avec RAG, le même expert a d'abord le droit d'ouvrir vos dossiers et de citer la bonne page avant de répondre. La réponse reste rédigée par lui, mais elle s'appuie sur une source que vous pouvez vérifier.
Ce qu'il faut arrêter de croire.
-
IDÉE REÇUE
Le RAG, c'est entraîner un modèle sur mes données.
EN RÉALITÉ
Non. Le RAG ne modifie pas le modèle. Il lui fournit des documents au moment de la question. C'est le fine-tuning qui réentraîne un modèle.
-
IDÉE REÇUE
Avec le RAG, le modèle ne peut plus se tromper.
EN RÉALITÉ
Le risque baisse nettement, mais une mauvaise récupération ou une source erronée produit toujours une réponse fausse.
-
IDÉE REÇUE
Le RAG sert seulement aux grandes entreprises.
EN RÉALITÉ
Toute organisation avec une base documentaire, même modeste, peut en tirer parti : une TPE avec ses procédures, un cabinet avec ses dossiers.
-
IDÉE REÇUE
Le RAG ralentit forcément les réponses.
EN RÉALITÉ
Il ajoute une étape de recherche, mais celle-ci est rapide. Le léger délai est compensé par des réponses plus justes et traçables.
Questions fréquentes.
Quelle est la différence entre le RAG et le fine-tuning ?
Le fine-tuning réentraîne le modèle pour modifier son comportement de fond. Le RAG ne touche pas au modèle : il lui transmet des documents au moment de la question. Le RAG s'actualise en changeant la base, le fine-tuning demande un nouvel entraînement.
Le RAG empêche-t-il vraiment les hallucinations ?
Il les réduit fortement, parce que le modèle travaille à partir de textes réels plutôt que de sa seule mémoire. Mais il ne les supprime pas : une source fausse ou une mauvaise recherche peut encore produire une erreur.
Faut-il des compétences techniques pour mettre en place du RAG ?
Construire un système RAG sur mesure demande des compétences techniques. En revanche, de nombreux outils grand public intègrent déjà le RAG : il suffit de déposer ses documents pour interroger sa propre base.
Le RAG fonctionne-t-il avec n'importe quel modèle de langage ?
Oui. Le RAG est une architecture indépendante du modèle. Il peut s'appuyer sur Claude, GPT, Gemini ou un modèle ouvert, selon les besoins de coût et de confidentialité.
Quelle est la différence entre le RAG et la fenêtre de contexte ?
La fenêtre de contexte est la quantité de texte qu'un modèle traite en une fois. Le RAG sert à sélectionner, dans un corpus bien plus large, les seuls fragments à placer dans cette fenêtre.
Révisé le 15 mai 2026