DALL-E : exploiter la créativité de l’IA
Introduction
L’intelligence artificielle ne se limite pas aux tâches quotidiennes, elle peut également être une source d’inspiration pour stimuler notre créativité. Un exemple fascinant est l’utilisation de DALL-E 3, un modèle d’intelligence artificielle générative développé par OpenAI.
DALL-E est un modèle d’IA qui repose sur l’apprentissage automatique et les réseaux de neurones. Il a la capacité de créer des images réalistes à partir de descriptions textuelles en suivant un processus en deux étapes. Tout d’abord, il utilise un encodeur pour traduire la description textuelle en un vecteur latent. Ensuite, il utilise un décodeur pour générer une image correspondant au vecteur latent.
Ce modèle est pré-entraîné sur une vaste quantité de données contenant des paires d’images et de descriptions textuelles. Grâce à cet entraînement, DALL-E peut comprendre les relations entre les images et les descriptions, lui permettant ainsi de générer des images réalistes en fonction de nouvelles descriptions textuelles.
La mission de DALL-E est simple : générer des images à partir de descriptions textuelles. Cela signifie qu’il peut prendre une description textuelle et la transformer...
Introduction à DALL-E
L’utilisation de DALL-E se veut très pratique : vous décrivez textuellement ce que vous souhaitez, DALL-E vous en retourne une image.
C’est aussi simple que cela, et nous pourrions presque terminer le chapitre à cet instant. Mais poursuivons, cela vous semblera sans doute étonnant mais nous allons pouvoir demander à DALL-E à peu près n’importe quoi comme : « un éléphant portant une robe rose » ou bien encore « un dinosaure portant un chapeau » ... vous verrez, nous y reviendrons.
Ensuite, et c’est toute la plus-value de ce chapitre, vous apprendrez à jouer sur des détails d’attributs ou autres perspectives dans la description textuelle. DALL-E ne manquera pas de vous satisfaire, nous en sommes absolument convaincus. Place à votre créativité ! Vous pourrez ainsi générer de nombreuses images correspondant à la description textuelle, parmi lesquelles, en bonus, vous choisirez celle qui vous correspond le plus. Pour mener à bien cette prouesse, notez que notre intelligence artificielle est basée sur un modèle de langage pré-entraîné qui est appelé « GPT-3 ». GPT-3 est ici utilisé comme encodeur en utilisant l’algorithme contenu dans les mots pour les traduire...
Coûts de DALL-E 3
Abordons désormais les coûts d’utilisation de notre IA générative. Vous vous posez sans doute raisonnablement la question : DALL-E 3 est-il gratuit ? La réponse est non, enfin pas tout à fait puisque l’histoire a fait son chemin.
DALL-E 3 est entièrement gratuit en passant par les services de Microsoft. Son utilisation réside dans un système de crédit, à savoir qu’un compte Microsoft actif dispose à sa création de 100 crédits DALL-E de base, et la génération de nouvelles images pourra être plus longue une fois ce quota épuisé. Il reste toutefois possible d’acheter des crédits en dépensant ses récompenses Microsoft glanées avec l’utilisation du navigateur Microsoft Bing.
Il faut savoir que jusqu’en juillet 2022, l’utilisation de DALL-E était totalement gratuite. Face à l’engouement du public et aux coûts de fonctionnement pharaoniques associés, DALL-E a basculé sur un modèle de crédits en proposant une offre à 15 $ pour 115 crédits.
Pour vous donner un ordre d’idée, les 115 crédits correspondent approximativement à 750 images générées de résolutions 1024*1024 ou bien encore à 937 images de résolution...
Découverte de DALL-E
Passons à l’utilisation concrète. Vous souvenez-vous de notre éléphant portant une robe rose ? Eh bien, nous avons demandé à DALL-E, et en français s’il vous plaît, de nous générer cette image à partir de son prompt :
Éléphant rose avec DALL-E
Pour rappel, le prompt est une instruction ou une description textuelle que vous fournissez au modèle DALL-E afin qu’il génère une image correspondante. Le prompt peut être une phrase, un paragraphe, voire quelques mots. L’idée est de décrire ce que vous souhaitez voir dans l’image de manière textuelle, et DALL-E se chargera de créer une illustration basée sur cette description.
Continuons avec un dinosaure portant un chapeau :
Un dinosaure DALL-E
Il est important de noter que DALL-E ne vous générera jamais deux fois le même dessin et qu’il supporte plutôt bien la langue francophone. Toutefois, pour des utilisations plus avancées contenant par exemple de nombreux ajouts de détails, il est conseillé de prendre l’anglais comme élément de langage de base.
Vous l’avez donc constaté, l’IA a su générer ces images en quelques fractions de seconde ; DALL-E en propose quatre systématiquement, à vous...
Apprendre à parler à DALL-E
Nous imaginons qu’à ce stade vous avez déjà pu faire parler votre soif de créativité. Nous vous emmenons ici à l’étape suivante, là où le sujet devient particulièrement bluffant et intéressant, c’est-à-dire quand vous apprenez à parler au prompt.
Le site https://www.41prompts.com/ regorge d’exemples (DALL·E Prompts: Popular AI Art Prompts - DALL·E Wizard) tout aussi spectaculaires les uns que les autres et de mots-clés vous permettant de faire parler au mieux votre créativité. Le site offre ainsi les possibilités suivantes :
-
Rechercher des images préalablement générées par vos prédécesseurs (Galerie).
-
Accéder à un guide d’utilisation de l’IA.
-
Accéder à des commandes dites créatives à insérer dans le prompt.
DALL-E Wizard
En considérant les exemples précédemment générés, que ce soit avec les éléphants roses ou autres dinosaures, voici ci-dessous quelques exemples d’utilisation du prompt que vous pourrez combiner à souhait :
Utilisation de la bioluminescence
Utilisation de la 3D
Black Background
Modern Minimalist
Cyberpunk
3D Hologram
Pour accéder à une liste complète de commandes ou de prompts possibles, nous vous recommandons de consulter la documentation officielle de DALL-E sur le site web d’OpenAI.
1. Supprimer et remplacer un élément avec DALL-E
Ah, le Vietnam, ce magnifique pays d’Asie du Sud-est qui offre...
Fonctionnement de DALL-E
DALL-E est un modèle d’intelligence artificielle qui appartient à la famille des GAN (Generative Adversarial Networks), spécialisé dans la génération d’images à partir de descriptions textuelles.
1. Qu’est-ce qu’un GAN ?
Afin d’appréhender le fonctionnement de DALL-E, nous vous proposons ici de revenir brièvement sur la notion, évoquée dans le chapitre Les fondamentaux de l’intelligence artificielle, de « décodeur basé sur un réseau génératif antagoniste (GAN) ».
Mais alors, qu’est-ce qu’un GAN ? Nous avons face à nous une classe d’algorithme où les données ne sont pas étiquetées (classe d’algorithme non supervisé). Il est utilisé dans le but de créer des données réalistes et de haute qualité dans de nombreux domaines tels que l’image, le texte ou bien encore la musique.
Notre modèle GAN, ou réseau génératif antagoniste, représente une technique d’intelligence artificielle qui met en compétition deux réseaux de neurones dans un cadre mathématique relevant de la théorie des jeux.
Dans cette configuration, le premier réseau de neurones est désigné comme le "générateur" et a la capacité de créer un échantillon (exemple : une image).
Le deuxième réseau, appelé "discriminateur", agit comme un adversaire ou un enseignant, jouant le rôle de juge. Sa fonction...
Accéder à DALL-E depuis votre programme Python
À travers les chapitres précédents, nous avons vu comment créer ou même modifier des images avec DALL-E en seulement quelques clics de souris.
Peut-être souhaiterez-vous aujourd’hui aller plus loin et, pourquoi pas, créer par vous-même votre propre application d’IA générative en accédant aux nombreuses fonctionnalités proposées par OpenAI avec votre application nouvellement créée en langage Python.
Tout d’abord, sachez que c’est tout à fait possible, et ceci grâce aux « API », autrement dit les fameux connecteurs proposés par OpenAI permettant cette interaction.
Assurez-vous d’avoir l’IDE PyCharm ainsi que Python 3.7 ou une version ultérieure installés sur votre machine (référez-vous au chapitre Votre premier programme Python, si toutefois vous n’avez pas encore installé Python).
1. Étape 1 : obtenez l’accès à l’API
Rendez-vous sur le site d’OpenAI : https://platform.openai.com.
Connectez-vous avec vos identifiants préalablement créés au début du chapitre.
Vous accédez à un menu déroulant sous votre avatar en haut à droite de l’écran, vous permettant de visualiser votre API KEY :...
Utilisation de DALL-E
Vous devez simplement recopier ce code dans votre IDE PyCharm.
N’oubliez pas de remplacer sk-..., par votre clé d’API secrète.
La partie « texte » sera à remplacer par le texte de votre choix.
import openai
openai.api_key = "sk-..." # Remplacez ceci par votre clé secrète
import torch
from dalle_pytorch import DiscreteVAE, DALLE
# Chargement du modèle pré-entraîné
vae = DiscreteVAE()
dalle = DALLE(vae)
# Description textuelle de l'image à générer
texte = "Un éléphant rose tout mignon avec des chaussettes rayées."
# Génération de l'image
image = dalle.generate_images(texte)
# Affichage de l'image générée
image.show()
Procédez à la compilation pour en obtenir le résultat :
Compilation
Vous avez désormais, à partir de cet exemple simple de code Python, la possibilité d’imaginer toutes sortes d’applications. Libérez votre créativité !
Quelles sont les interdictions de DALL-E 3 ?
Maintenant que vous avez exploré le potentiel de DALL-E, il est tout aussi essentiel de considérer les possibles dérives de cette technologie. À une époque où l’information se propage à une vitesse fulgurante grâce aux réseaux sociaux, l’idée de générer des images proches de la réalité contenant de fausses informations (fake news) ou véhiculant des idéologies de propagande peut être inquiétante.
Cependant, il est important de noter qu’OpenAI a pris des mesures rigoureuses pour minimiser ces risques. La société s’est efforcée d’établir des règles strictes visant à prévenir les biais et la toxicité dans les images générées par DALL-E 3. Au fil du temps, de nombreuses améliorations ont été apportées pour, par exemple, mieux refléter la diversité de la population dans les images, notamment en évitant de préciser le genre ou l’ethnie dans les descriptions textuelles.
Il est essentiel de comprendre que le produit mis à disposition par OpenAI ne permet en aucun cas la création de contenu offensant, violent, haineux, discriminatoire, sexuel, explicite, d’automutilation, d’abus.
OpenAI utilise plusieurs méthodes...
Concurrents de DALL-E
L’arrivée de DALL-E 3 a marqué un jalon indéniable dans le domaine de l’intelligence artificielle créative. Toutefois, il ne trône pas en solitaire dans ce monde en constante mutation. De nombreux autres acteurs se sont engagés dans la course pour développer des modèles concurrents et complémentaires, chacun apportant sa propre perspective et ses innovations uniques. Dans cette section, nous explorons certains des concurrents les plus prometteurs de DALL-E 3, en mettant en lumière leurs caractéristiques distinctives et leur influence sur la vulgarisation de l’IA :
-
Midjourney : est un autre générateur d’images par IA qui partage de nombreuses similitudes avec DALL-E 3. Il excelle dans la création d’images réalistes et créatives à partir de descriptions textuelles.
-
InstructGPT : est un générateur d’images par IA spécialisé dans la création d’images en suivant des instructions étape par étape. Il trouve son utilité dans la création de tutoriels, de recettes ou d’instructions de montage.
-
Imagen : est un générateur d’images par IA développé par Google AI, réputé pour sa capacité à produire des images photoréalistes, même à partir de descriptions textuelles...
Conclusion
En explorant l’univers créatif de DALL-E 3, nous avons fait un voyage au cœur de l’intelligence artificielle créative. Nous avons découvert comment cette technologie innovante peut transformer des descriptions textuelles en images impressionnantes, ouvrant ainsi de nouvelles voies pour la créativité et l’expression artistique. À travers ce chapitre, nous avons pu comprendre les bases de son fonctionnement, son impact potentiel sur divers domaines et les limites qu’elle pourrait rencontrer.
L’avènement de DALL-E 3 n’est que le début d’une ère passionnante où l’intelligence artificielle et la créativité humaine se rejoignent pour créer quelque chose de vraiment unique. Les artistes, les concepteurs, les éducateurs et les passionnés du monde entier peuvent désormais tirer parti de cette technologie pour donner vie à leurs idées et explorer de nouvelles formes d’expression.
Bien que DALL-E 3 ait déjà montré ses prouesses dans la génération d’images, il est important de garder à l’esprit que l’IA n’est pas une solution magique qui remplace la créativité humaine. Au contraire, elle peut être un outil puissant pour inspirer, soutenir et amplifier notre propre imagination. Tout comme un pinceau...