GLOSSAIRE IA · FONDAMENTAUX

Multimodal

IA multimodale

Une IA multimodale est capable de traiter plusieurs types de contenus : texte, image, audio et vidéo. Au lieu de se limiter au texte, elle peut analyser une photo, écouter un son ou regarder une vidéo, et combiner ces entrées dans une même réponse.

Définition: IA qui traite plusieurs formats
Modalités: Texte, image, audio, vidéo
Opposé: Modèle texte uniquement
Exemples 2026: Claude, GPT-5.5, Gemini 3
Usage clé: Tâches créatives et d'analyse
Catégorie: Fondamentaux IA

DÉFINITION [Multimodal.1]

Au-delà du texte seul

Un modèle multimodal ne se contente pas de lire et d'écrire. Il voit, il écoute, il combine.

Les premiers modèles de langage ne manipulaient que du texte. Une IA multimodale élargit ce champ : elle accepte en entrée des images, du son ou de la vidéo, en plus du texte.

Le mot « modalité » désigne chaque type de contenu. Texte, image, audio et vidéo sont quatre modalités. Une IA est dite multimodale quand elle en combine plusieurs, en entrée comme en sortie.

Concrètement, cela change les usages possibles. On peut montrer une photo et poser une question dessus, faire décrire une vidéo, ou demander un commentaire sur un graphique. L'IA traite l'image et la question dans un même raisonnement.

CAPACITÉS [Multimodal.2]

Ce que permet le multimodal

Combiner les modalités ouvre des usages qu'un modèle texte ne pouvait pas couvrir.

Analyser une image

Décrire une photo, lire un document scanné, expliquer un schéma ou un graphique présenté en entrée.
Comprendre une vidéo

Résumer une séquence, repérer un moment précis, transcrire et commenter ce qui s'y passe.
Traiter le son

Transcrire un enregistrement, identifier un contenu audio, dialoguer à la voix de façon naturelle.
Mêler les formats

Recevoir une image accompagnée d'une consigne écrite, et produire une réponse qui tient compte des deux.

MÉCANIQUE [Multimodal.3]

Comment un modèle gère plusieurs formats

Le multimodal repose sur une idée simple : ramener chaque format à une représentation commune.

01
Conversion en tokens

Chaque entrée, image ou son compris, est découpée en tokens, l'unité de base que le modèle sait manipuler.
02
Représentation commune

Tous les formats sont ramenés à un même espace numérique. Le modèle ne distingue plus une image d'un texte au moment du calcul.
03
Traitement unifié

Le modèle raisonne sur l'ensemble en une fois, ce qui lui permet de relier une image et la question écrite qui l'accompagne.
04
Génération de la réponse

La sortie peut elle aussi être multimodale, selon le modèle : du texte, mais parfois aussi de l'image ou du son.

LIMITES [Multimodal.4]

Ce que le multimodal ne change pas

Élargir les formats ne supprime pas les faiblesses de fond des modèles.

L'hallucination demeure

Un modèle peut mal décrire une image ou inventer un détail absent. Voir un contenu ne garantit pas de le décrire juste.
Le coût augmente

Une image ou une vidéo représente beaucoup de tokens. Les entrées visuelles consomment plus que du texte seul.
La précision varie

Lire un texte net dans une image est fiable. Interpréter une scène complexe ou un détail fin l'est beaucoup moins.
Toutes les modalités ne se valent pas

Un modèle peut être solide sur l'image et plus faible sur la vidéo ou le son. Le multimodal n'est pas uniforme.

EN CLAIR

Pour le dire simplement

Un modèle texte, c'est un correspondant qui ne communique que par écrit. Un modèle multimodal, c'est un interlocuteur à qui vous pouvez aussi montrer une photo, faire écouter un extrait ou présenter une vidéo. La conversation reste la même, mais vous n'êtes plus obligé de tout décrire avec des mots.

IDÉES REÇUES [Multimodal.MYTH]

Ce qu'il faut arrêter de croire.

IDÉE REÇUE

Multimodal veut dire que l'IA génère des images.

EN RÉALITÉ

Pas seulement. Le multimodal concerne d'abord la capacité à recevoir et comprendre plusieurs formats. La génération d'images en est un usage possible, pas la définition.
IDÉE REÇUE

Une IA multimodale comprend parfaitement ce qu'elle voit.

EN RÉALITÉ

Elle traite l'image, mais peut se tromper ou inventer un détail. L'hallucination existe aussi sur les contenus visuels.
IDÉE REÇUE

Le multimodal coûte le même prix que le texte.

EN RÉALITÉ

Non. Une image ou une vidéo se traduit en un grand nombre de tokens, ce qui renchérit nettement le traitement.
IDÉE REÇUE

Tous les modèles multimodaux gèrent toutes les modalités.

EN RÉALITÉ

Les capacités varient. Un modèle peut exceller sur l'image et rester limité sur la vidéo ou l'audio.

FAQ [Multimodal.FAQ]

Questions fréquentes.

Que signifie multimodal pour une IA ?

Cela signifie que l'IA peut traiter plusieurs types de contenus : texte, image, audio et vidéo. Chaque type est une modalité. Une IA multimodale en combine plusieurs, contrairement à un modèle qui ne manipule que du texte.

Quels modèles sont multimodaux en 2026 ?

Les grands modèles de pointe le sont devenus : Claude, GPT-5.5 et Gemini 3 acceptent tous des entrées texte et image, avec des capacités audio et vidéo selon les versions. Le multimodal est désormais la norme sur les modèles haut de gamme.

Une IA multimodale peut-elle se tromper sur une image ?

Oui. Voir un contenu ne garantit pas de le décrire correctement. Un modèle peut mal interpréter une scène ou inventer un détail absent. Le risque d'hallucination existe aussi pour les contenus visuels et sonores.

Le multimodal coûte-t-il plus cher que le texte ?

En général, oui. Une image ou une vidéo se convertit en un grand nombre de tokens, l'unité de facturation des modèles. Traiter des contenus visuels consomme donc davantage que du texte seul.

Quelle différence entre multimodal et génération d'images ?

Le multimodal désigne la capacité à comprendre plusieurs formats en entrée. La génération d'images est une capacité de sortie. Un modèle peut être multimodal en entrée sans produire d'images, et inversement.

POURSUIVRE [Multimodal.LIENS]

← Retour au glossaire

Révisé le 15 mai 2026

Multimodal

Au-delà du texte seul

Ce que permet le multimodal

Analyser une image

Comprendre une vidéo

Traiter le son

Mêler les formats

Comment un modèle gère plusieurs formats

Conversion en tokens

Représentation commune

Traitement unifié

Génération de la réponse

Ce que le multimodal ne change pas

L'hallucination demeure

Le coût augmente

La précision varie

Toutes les modalités ne se valent pas

Ce qu'il faut arrêter de croire.

Questions fréquentes.

Termes liés.