LoRA, In-painting, Diffusion, ComfyUI, CFG scale, VAE, ControlNet, Flux, Stable Diffusion, Midjourney, CLIP, embeddings, checkpoints, seed fixe, negative prompt… Si vous avez déjà essayé de vous informer sur l'IA générative pour votre marque food, vous avez probablement rencontré ce mur de jargon. Ce glossaire est là pour l'abattre.
30 termes clés, expliqués sans prérequis technique, avec pour chaque concept une application concrète dans le contexte de la production visuelle agroalimentaire. À bookmarker et à partager avec votre équipe marketing.
A — Les modèles et architectures
Modèle de diffusion (Diffusion Model)
C'est la technologie de base derrière la plupart des générateurs d'images IA modernes (Stable Diffusion, DALL-E, Midjourney). Le principe : le modèle apprend à débruiter progressivement une image aléatoire jusqu'à en faire quelque chose de cohérent. En production food, c'est ce qui permet de générer un packshot crédible à partir d'une simple description textuelle.
Flux
Flux (développé par Black Forest Labs) est actuellement l'un des modèles de diffusion les plus performants pour la photographie réaliste. En photographie culinaire IA, Flux produit des textures alimentaires particulièrement convaincantes — le brillant d'une sauce, le grillé d'une croûte, la transparence d'un verre.
Stable Diffusion
Le modèle open-source de référence. Il a l'avantage d'être entièrement customisable, ce qui en fait la base de la plupart des pipelines de production professionnels, dont celui de FabFood. Sa flexibilité permet d'intégrer des LoRAs produit spécifiques et de contrôler précisément le résultat.
Checkpoint
Un checkpoint est une version entraînée d'un modèle de diffusion, avec un style ou une spécialisation particuliers. Il existe des checkpoints optimisés pour la photographie réaliste, d'autres pour le rendu produit, d'autres pour les illustrations. En production food, je sélectionne le checkpoint en fonction de l'ambiance souhaitée.
Workflow de retouche IA sur tablette graphique — le process FabFood combine génération et correction manuelle.
B — La personnalisation du modèle
LoRA (Low-Rank Adaptation)
C'est l'outil le plus important pour la production food professionnelle. Un LoRA est une couche d'entraînement supplémentaire qu'on ajoute à un modèle existant pour lui apprendre à reconnaître et reproduire fidèlement un sujet spécifique — votre packaging, votre produit, votre identité visuelle. En clair : le LoRA crée le « jumeau numérique » de votre produit. C'est le point de départ de tout projet de photographie générative chez FabFood.
Embedding (Textual Inversion)
Technique similaire au LoRA mais plus légère — elle encode un concept ou un style dans un token textuel. Utile pour capturer une ambiance lumineuse particulière ou un style de composition spécifique à une charte visuelle.
Dreambooth
Une technique d'entraînement fine-tuning qui permet d'ancrer un sujet précis dans le modèle. Moins flexible que le LoRA pour la production en volume, mais parfois utilisé pour des cas d'usage très spécifiques (personnages récurrents, produits complexes).
C — Le contrôle de la génération
Prompt
Le texte de description que vous donnez au modèle pour lui indiquer ce qu'il doit générer. En production food professionnelle, un prompt efficace est structuré : sujet principal, ambiance, éclairage, angle de vue, style photographique, rendu final. Un bon prompt food peut faire tenir 60 à 80 mots bien choisis.
Negative Prompt
Ce que vous ne voulez pas voir dans l'image. En food, les negative prompts classiques incluent : mains floues, artefacts, déformations de packaging, couleurs non saturées, grains excessifs. C'est un paramètre aussi important que le prompt positif.
CFG Scale (Classifier-Free Guidance)
Un curseur qui contrôle à quel point le modèle suit fidèlement votre prompt. Une valeur basse (3–5) donne plus de liberté au modèle, une valeur haute (10–15) lui fait suivre le prompt à la lettre au risque de sur-saturer l'image. Pour la photographie food réaliste, je travaille généralement entre 6 et 9.
Seed
Un nombre qui initialise le processus de génération. Fixer un seed garantit la reproductibilité : avec le même seed et le même prompt, vous obtenez exactement la même image. Essentiel pour les déclinaisons cohérentes d'un même produit.
Steps (étapes de débruitage)
Le nombre de passes de débruitage que le modèle effectue pour passer du bruit à l'image finale. Plus d'étapes = plus de qualité (jusqu'à un certain point), mais aussi plus de temps de calcul. En production, 20 à 30 steps est souvent le bon équilibre.
D — L'édition et la retouche IA
In-painting
Technique permettant de régénérer une zone spécifique d'une image existante — sans toucher au reste. En food, j'utilise l'in-painting pour corriger un détail de packaging mal rendu, ajuster la position d'un aliment dans la composition, ou remplacer un fond défaillant. C'est la technique de correction la plus utilisée en production professionnelle.
Out-painting (Uncropping)
L'inverse : étendre une image au-delà de ses bords originaux. Utile pour recadrer une image sans perte de qualité, ou adapter un visuel paysage en portrait pour les formats 9:16.
ControlNet
Un outil qui permet de contrôler la structure d'une image générée — sa pose, ses contours, sa composition — à partir d'une image de référence. En food, je l'utilise pour garantir que le produit reste dans la même position et orientation d'un visuel à l'autre, même en changeant complètement l'ambiance.
IP-Adapter
Permet de guider la génération à partir d'une image de référence de style, sans entraînement supplémentaire. Utile pour reproduire une ambiance lumineuse ou une palette colorimétrique d'une charte visuelle existante.
Dessert au chocolat ultra-réaliste généré par Gemini Image 2 — rendu photographique indiscernable d'un shooting classique.
E — Les plateformes et interfaces
ComfyUI
L'interface de production professionnelle par excellence. ComfyUI permet de construire des workflows de génération visuels, en connectant des nœuds (chargement du modèle, LoRA, ControlNet, sampler, upscaler…). C'est l'outil que j'utilise pour tous les projets FabFood — sa flexibilité est incomparable.
Automatic1111
L'interface grand public la plus populaire pour Stable Diffusion. Plus accessible que ComfyUI, mais moins flexible pour les workflows complexes. Un bon point de départ pour explorer les possibilités.
Midjourney
Le générateur en ligne le plus connu du grand public. Interface simple, résultats souvent impressionnants — mais moins de contrôle que ComfyUI pour la production professionnelle. Pas d'entraînement LoRA possible.
GPT Image (Sora/DALL-E)
Les modèles d'OpenAI. GPT Image 2 produit des résultats de haute qualité avec une bonne cohérence des textes dans les images — utile pour les packagings avec mention textuelle.
F — Qualité et post-traitement
Upscaling (Super-résolution)
Technique d'augmentation de la résolution d'une image sans perte de qualité. En production food, j'utilise des modèles comme RealESRGAN ou l'upscaling intégré dans ComfyUI pour passer des images générées (souvent en 1024×1024) à des résolutions print-ready (4K et au-delà).
VAE (Variational AutoEncoder)
Un composant du pipeline de diffusion qui encode et décode l'image dans un espace latent. Le choix du VAE influence directement la saturation des couleurs et la netteté de l'image finale. Paramètre technique souvent ignoré par les débutants — mais essentiel en production food pour des couleurs fidèles.
Sampler
L'algorithme de débruitage utilisé lors de la génération. DPM++, Euler, DDIM… Chaque sampler a ses caractéristiques en termes de rendu et de vitesse. Pour la photographie food réaliste, DPM++ 2M Karras est souvent mon choix par défaut.