GLOSSAIRE IA · FONDAMENTAUX
Multimodal
IA multimodale
Une IA multimodale est capable de traiter plusieurs types de contenus : texte, image, audio et vidéo. Au lieu de se limiter au texte, elle peut analyser une photo, écouter un son ou regarder une vidéo, et combiner ces entrées dans une même réponse.
- Définition
- IA qui traite plusieurs formats
- Modalités
- Texte, image, audio, vidéo
- Opposé
- Modèle texte uniquement
- Exemples 2026
- Claude, GPT-5.5, Gemini 3
- Usage clé
- Tâches créatives et d'analyse
- Catégorie
- Fondamentaux IA
Au-delà du texte seul
Un modèle multimodal ne se contente pas de lire et d'écrire. Il voit, il écoute, il combine.
Les premiers modèles de langage ne manipulaient que du texte. Une IA multimodale élargit ce champ : elle accepte en entrée des images, du son ou de la vidéo, en plus du texte.
Le mot « modalité » désigne chaque type de contenu. Texte, image, audio et vidéo sont quatre modalités. Une IA est dite multimodale quand elle en combine plusieurs, en entrée comme en sortie.
Concrètement, cela change les usages possibles. On peut montrer une photo et poser une question dessus, faire décrire une vidéo, ou demander un commentaire sur un graphique. L'IA traite l'image et la question dans un même raisonnement.
Ce que permet le multimodal
Combiner les modalités ouvre des usages qu'un modèle texte ne pouvait pas couvrir.
-
Analyser une image
Décrire une photo, lire un document scanné, expliquer un schéma ou un graphique présenté en entrée.
-
Comprendre une vidéo
Résumer une séquence, repérer un moment précis, transcrire et commenter ce qui s'y passe.
-
Traiter le son
Transcrire un enregistrement, identifier un contenu audio, dialoguer à la voix de façon naturelle.
-
Mêler les formats
Recevoir une image accompagnée d'une consigne écrite, et produire une réponse qui tient compte des deux.
Comment un modèle gère plusieurs formats
Le multimodal repose sur une idée simple : ramener chaque format à une représentation commune.
- 01
Conversion en tokens
Chaque entrée, image ou son compris, est découpée en tokens, l'unité de base que le modèle sait manipuler.
- 02
Représentation commune
Tous les formats sont ramenés à un même espace numérique. Le modèle ne distingue plus une image d'un texte au moment du calcul.
- 03
Traitement unifié
Le modèle raisonne sur l'ensemble en une fois, ce qui lui permet de relier une image et la question écrite qui l'accompagne.
- 04
Génération de la réponse
La sortie peut elle aussi être multimodale, selon le modèle : du texte, mais parfois aussi de l'image ou du son.
Ce que le multimodal ne change pas
Élargir les formats ne supprime pas les faiblesses de fond des modèles.
-
L'hallucination demeure
Un modèle peut mal décrire une image ou inventer un détail absent. Voir un contenu ne garantit pas de le décrire juste.
-
Le coût augmente
Une image ou une vidéo représente beaucoup de tokens. Les entrées visuelles consomment plus que du texte seul.
-
La précision varie
Lire un texte net dans une image est fiable. Interpréter une scène complexe ou un détail fin l'est beaucoup moins.
-
Toutes les modalités ne se valent pas
Un modèle peut être solide sur l'image et plus faible sur la vidéo ou le son. Le multimodal n'est pas uniforme.
EN CLAIR
Pour le dire simplement
Un modèle texte, c'est un correspondant qui ne communique que par écrit. Un modèle multimodal, c'est un interlocuteur à qui vous pouvez aussi montrer une photo, faire écouter un extrait ou présenter une vidéo. La conversation reste la même, mais vous n'êtes plus obligé de tout décrire avec des mots.
Ce qu'il faut arrêter de croire.
-
IDÉE REÇUE
Multimodal veut dire que l'IA génère des images.
EN RÉALITÉ
Pas seulement. Le multimodal concerne d'abord la capacité à recevoir et comprendre plusieurs formats. La génération d'images en est un usage possible, pas la définition.
-
IDÉE REÇUE
Une IA multimodale comprend parfaitement ce qu'elle voit.
EN RÉALITÉ
Elle traite l'image, mais peut se tromper ou inventer un détail. L'hallucination existe aussi sur les contenus visuels.
-
IDÉE REÇUE
Le multimodal coûte le même prix que le texte.
EN RÉALITÉ
Non. Une image ou une vidéo se traduit en un grand nombre de tokens, ce qui renchérit nettement le traitement.
-
IDÉE REÇUE
Tous les modèles multimodaux gèrent toutes les modalités.
EN RÉALITÉ
Les capacités varient. Un modèle peut exceller sur l'image et rester limité sur la vidéo ou l'audio.
Questions fréquentes.
Que signifie multimodal pour une IA ?
Cela signifie que l'IA peut traiter plusieurs types de contenus : texte, image, audio et vidéo. Chaque type est une modalité. Une IA multimodale en combine plusieurs, contrairement à un modèle qui ne manipule que du texte.
Quels modèles sont multimodaux en 2026 ?
Les grands modèles de pointe le sont devenus : Claude, GPT-5.5 et Gemini 3 acceptent tous des entrées texte et image, avec des capacités audio et vidéo selon les versions. Le multimodal est désormais la norme sur les modèles haut de gamme.
Une IA multimodale peut-elle se tromper sur une image ?
Oui. Voir un contenu ne garantit pas de le décrire correctement. Un modèle peut mal interpréter une scène ou inventer un détail absent. Le risque d'hallucination existe aussi pour les contenus visuels et sonores.
Le multimodal coûte-t-il plus cher que le texte ?
En général, oui. Une image ou une vidéo se convertit en un grand nombre de tokens, l'unité de facturation des modèles. Traiter des contenus visuels consomme donc davantage que du texte seul.
Quelle différence entre multimodal et génération d'images ?
Le multimodal désigne la capacité à comprendre plusieurs formats en entrée. La génération d'images est une capacité de sortie. Un modèle peut être multimodal en entrée sans produire d'images, et inversement.
Termes liés.
Révisé le 15 mai 2026