Midjourney visual noise bruit visuel

Comment fonctionnent Midjourney, Dall-E, Stable Diffusion et les autres IA génératrices d’images ?

Les logiciels d’IA génératrices d’images rencontrent un franc succès mondial et montrent des performances étonnantes.

Midjourney, Dall-E et Stable Diffusion, entre autres, sont capables de générer des images sur la base d’un simple texte, appelé prompt, et ce en quelques secondes seulement.

Mais comment ces IA fonctionnent-elles ? Et quelles conséquences ont ces fonctionnements sur la manière dont nous pouvons et devons les utiliser ?

Science Etonnante vous explique comment marchent les IA de création d’images

Excellent vulgarisateur, le scientifique de la chaîne Youtube « Science Etonnante » vous explique en détail comment fonctionnent les IA génératrices d’images.

En bref :

  • on leur a d’abord appris à catégoriser des images : on leur donne 1000 images, dont des chats, et elles doivent reconnaître toutes les images montrant un chat, un arbre, une voiture etc, malgré les différences d’angle de vue, de couleur, d’éclairage, de position, de style graphique, etc. On a obtenu des programmes qui savent dire si une image représente un chat, un arbre etc.
  • on leur a ensuite appris à « débruiter » des images : on a pris des images auxquelles on a ajouté du « bruit visuel », en quantités de plus en plus importantes : 5%, 10%, 50%… Et on leur a demandé d’enlever le bruit. Elles sont devenues excellentes à ce petit jeu.
RGB bruit visuel
Un exemple de bruit visuel RGB (rouge, vert, bleu)
  • A force, on a obtenu des IA qui apprennent à « débruiter » des catégories à partir de… rien : on leur donne du pur bruit visuel en leur disant que c’est « un chat sur la lune mangeant des chips sur un bateau« , et elles « hallucinent » cette image qui n’existait pas avant, en s’efforçant de faire correspondre le bruit aux modèles d’images qu’elles connaissent concernant chaque catégorie, chaque chose, chaque être : les chats, la lune, les chips, les bateaux, mais aussi les relations entre ces choses : être sur ou sous, manger etc.

Pour tout comprendre, regardez bien cette vidéo :

Les conséquences sur l’utilisation des IA créatrices d’images

Comprendre l’IA pour mieux l’utiliser

La façon dont fonctionnent les intelligences artificielles de création d’image a forcément une forte influence sur ce qu’elles produisent, comment elles le produisent et ce qu’on peut leur demander ou pas.

Il est donc important de former les utilisateurs pour leur éviter de proposer à l’IA des instructions totalement dénuées de sens, que les IA ne peuvent pas interpréter.

Par exemple, on voit des utilisateurs demander :

telle chose, « avec beaucoup de détails », comme si l’IA était capable de comprendre ce type d’instruction. Une telle mention ne garantit en rien que l’IA produira beaucoup de détails ; elle fera juste correspondre son débruitage à un stock d’images ayant été décrites comme comportant « beaucoup de détails ». Si toutes les images décrites comme ayant « beaucoup de détails » étaient un cercle vert sur fond blanc, alors l’IA produirait en moyenne un cercle vert sur fonds blanc, sans aucun égard pour le sens que NOUS donnons à cette expression. Pour la machine, on pourrait remplacer l’expression « avec beaucoup de détails » par « #x67jh7872 », cela ne changerait rien à son fonctionnement profond.

Même remarque quand les utilisateurs demandent une « belle » femme. L’IA ne sait pas ce qu’on veut dire par là. Mais l’adjectif lui sert à sélectionner dans ses modèles les images ainsi qualifiées. Elle imitera donc le contenu moyen de ces images. Je ne dis pas qu’il ne faut pas utiliser ces mots à connotation  très subjective ; je dis qu’il faut comprendre ce que ça fait en réalité : ça sélectionne un sous-ensemble de modèles, point barre, mais ça n’entraîne aucune interprétation par l’IA elle-même.

Les utilisateurs humains doivent bien comprendre que… l’IA n’a pas été entraînée à comprendre le langage humain avec finesse.

On lui a montré des millions d’images en décrivant les CHOSES qu’il y avait dessus. Par exemple : une photo de chat, en noir et blanc, de loin, sur un arbre. De là, l’IA a au moins un exemple d’image correspondant aux expressions « sur un arbre », « en noir et blanc ». Plus l’IA aura d’images indexées sur ces termes, plus elle sera capable de produire un résultat correspondant au sens de ces termes – mais soyons bien conscients, nous humains, qu’un programme d’IA n’est qu’un TRAITEMENT STATISTIQUE DE NOMBRES. Une IA ne COMPREND absolument rien de ce qu’on lui demande, et ne VOIT rien. Elle n’a aucun sens de la beauté, entre autres.

Il faut donc utiliser les IA de manière intelligente, en gardant à l’esprit qu’il ne s’agit pas, en réalité, d’une autre forme d’intelligence à proprement parler : l’IA ne sait rien, ne pense rien, n’a aucun avis sur rien, ne connait rien. Elle traite de l’information en masse, et c’est tout. Elle fait des correspondances entre des chaînes de caractères et des stocks d’images.

(Et donc on peut arrêter tous les délires anthropomorphes où les gens projettent une personnalité humaine dans un programme. Non, l’IA n’est pas consciente ni vivante. C’est juste un algorithme très perfectionné, fait par des humains très malins.)

Exemple avec les prompts de Midjourney

Récemment, un modérateur nommé Clarinet du serveur Discord de Midjourney a posté la réflexion suivante, je cite :

Les termes de rendu incluent 4k, 6k, 8k, 16k, ultra 4k, octane, unreal, v-ray, lumion, renderman, hd, hdr, hdmi, haute résolution, dp, dpi, ppi, 1080p et autres. Nous voulons faire savoir aux débutants que ces termes ne font pas produire à Midjourney des résolutions plus élevées ou un rendu différent.

Ces mots ne modifient pas Midjourney, ils s’appuient simplement sur des éléments corrélés dans l’ensemble de données, qui comprend des fichiers d’aide, des feuilles de calcul, des captures d’écran de l’interface utilisateur de l’outil, des publicités, des bannières Web, des rendus de choses sans rapport avec votre sujet, etc. Même dans la v4, ces mots peuvent ne pas se comporter comme prévu.

Cela dit, oui, les mots de rendu font quelque chose à votre image. Ils peuvent également être à l’origine de la rupture de votre prompt. Ainsi, dans le cadre du dépannage, nous vous recommandons de les supprimer. Leur suppression résout souvent les problèmes de flou, de mise au point, de clarté et de cohérence.
Des problèmes similaires peuvent survenir avec des termes tels que « trending on ArtStation » ou « trending on DeviantArt », etc. Ces mots sont corrélés à des images associées aux mots trending et ArtStation et incluent donc, par exemple, les images les moins tendance, et toute image corrélée au terme ArtStation ou DeviantArt (ou autre) qui inclut (par exemple) une variété de vignettes à faible résolution. Dans le cadre du dépannage, nous recommandons donc de les supprimer. Leur suppression permet souvent de résoudre les problèmes de qualité et de cohérence.

Cela dit, les artistes peuvent et doivent /imaginer utiliser tous les outils de leur boîte à outils qui produisent les effets qui sont importants pour leurs résultats artistiques ! Ne considérez pas que cette FAQ déconseille l’utilisation de ces termes ou de tout autre terme pour /imagine. Nous voulons simplement que tout le monde comprenne bien ce qui se passe lorsqu’il faut revenir en arrière pour résoudre un problème !

Modérateur Clarinet, serveur Discord de Midjourney

En d’autres termes : le fait d’utiliser l’expression « 4k » dans un prompt ne va pas faire produire à Midjourney une image d’une résolution de 4k. Car 4k n’est tout simplement pas une instruction que Midjourney connait. Ni HDR, ni haute résolution, etc etc. Il est possible qu’une partie des 5 milliards d’images que connait Midjourney ait été indexée avec des mots-clés comme 4k, 8k etc. Mais cela ne garantit en rien une résolution conforme à cette mention.

Le problème des couleurs

Les logiciels d’IA de création d’image sont pour l’instant difficiles à contrôler.

Un des principaux problèmes est qu’ils ne sont pour l’instant pas capables de respecter une simple instruction concernant les couleurs.

En effet, si je demande à Midjourney, à Dall-E, à Stable Diffusion, une « ville bleue », ces programmes n’ont aucun moyen de savoir ce que je veux dire par là : le concept de ville va totalement dépendre de ma culture, de mes connaissances, de mes expériences, toutes choses que les utilisateurs des IA ne partagent PAS avec les programmes, et surtout le concept de « bleu » est extrêmement subjectif, et littéralement des milliers de couleurs peuvent être qualifiées de « bleues »… sauf que certains humains préféreront les décrire comme étant vertes, violettes et autres.

Demander à une IA une « ville bleue », ce n’est rien d’autre que de lui dire de générer une image, partant de pur bruit visuel, aboutissant à une image correctement catégorisée, pour correspondre au stocke d’images connues par l’IA et décrites comme étant des villes et comme comportant une forme de couleur bleue.

Or, si le stock d’images ayant entraîné l’IA contient par exemple des images dont une partie est décrite comme « ciel bleu », l’IA générera des images comportant ce style de couleur, mais potentiellement aussi d’autres éléments fréquemment associés à ce type d’image, comme… une ligne d’horizon ou des nuages (ou pour la machine, des zones de pixels plus clairs que la moyenne), ou une zone de forte intensité lumineuse, que les humains appellent le soleil…

Ainsi, quand on donne aux IA des mots comme « noir », « turquoise », « rouge tomate », « gris cendre », les IAs n’ont aucun moyen de savoir ce qu’on veut dire. Chacun de ces thèmes est profondément ambigu et correspond à des images ou des parties d’images qui n’ont pas du tout les mêmes couleurs. Noir peut désigner une personne de type physique africain, à la peau plus ou moins beige, brune, chocolat. Turquoise peut désigner une pierre précieuse aux multiples couleurs. Les tomates ont de nombreuses couleurs en fonction de la variété, et le fait d’utiliser l’expression rouge tomate dans Midjourney va souvent conduire à ce que Midjourney cherche à inclure une tomate dans l’image (souvent, j’éclate de rire en voyant les incompréhensions de Midjourney qui est comme un génie débile, capable du meilleur et du pire…) Etc etc.

Conclusion

Les IA de création d’image fusionneront sans doute en partie avec les programmes de type GPT ou plus généralement avec les IA incluant des modules de NLP, natural-language processing, ou traitement du langage humain en bon français. De là, il sera probablement possible de leur parler en langage naturel de manière à ce qu’elles créent des prompts les plus proches possibles du souhait de l’utilisateur, même si celui-ci exprime des demandes irréalisables…

N’empêche que pour l’instant, les IA visuelles ne sont que des processeurs statistiques de masse : pour obtenir un résultat proche de ce que nous voulons, ne leur demandons que ce qu’elles savent faire.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Synthographie.fr

a deux passions :

la génération d’images
par intelligence artificielle

avec des logiciels
comme Midjourney,
Dall-E, Stable Diffusion…

la génération de texte
par les modèles de langage (LLM)

avec des logiciels
comme ChatGPT,
Mistral, LLaMa…

Retour en haut