Le Guide Ultime d'Inversion Textuelle de Stable Diffusion

Name: Naomi Clarkson

Published on 17/08/2023

Un guide complet pour l'ajustement de la Diffusion Stable pour l'inversion textuelle. Apprenez comment ajouter de nouveaux styles ou objets à vos modèles de texte vers image sans modifier le modèle sous-jacent.

Bienvenue dans notre guide complet sur la Diffusion Stable de l'Inversion Textuelle. Dans ce guide, nous explorerons comment ajuster la Diffusion Stable pour l'inversion textuelle, une technique puissante pour capturer de nouveaux concepts à partir d'un petit nombre d'images d'exemple. Ce processus permet de générer des images personnalisées, offrant un nouveau niveau de contrôle sur les images générées à partir de pipelines de texte vers image.

La Diffusion Stable, un modèle de diffusion latent puissant de texte vers image, a révolutionné la façon dont nous générons des images à partir de texte. Avec l'ajout de l'inversion textuelle, nous pouvons désormais ajouter de nouveaux styles ou objets à ces modèles sans modifier le modèle sous-jacent. Ce guide vous fournira un processus étape par étape pour entraîner votre propre modèle en utilisant l'inversion textuelle.

Qu'est-ce que l'inversion textuelle dans la diffusion stable ?

L'inversion textuelle est une technique qui nous permet d'ajouter de nouveaux styles ou objets à des modèles de texte vers image sans modifier le modèle sous-jacent. Elle consiste à définir un nouveau mot-clé représentant le concept souhaité et à trouver le vecteur d'incorporation correspondant dans le modèle linguistique. Cette technique permet au modèle de générer des images basées sur le concept fourni par l'utilisateur, nécessitant souvent seulement de 3 à 5 images d'exemple.

Par exemple, si vous souhaitez générer une image d'un "robot dessinant dans la nature sauvage, la jungle", vous pouvez définir un nouveau mot-clé "robot-art" et trouver son vecteur d'incorporation correspondant. Le modèle générera alors une image basée sur ce concept.

Le processus permet une création personnalisée en composant des phrases en langage naturel utilisant ces nouveaux "mots" dans l'espace d'incorporation du modèle. Une incorporation d'un seul mot est souvent suffisante pour capturer des concepts divers et distincts. Les fichiers d'inversion textuelle (incorporations) ont généralement une taille de 10 à 100 Ko et utilisent l'extension de fichier *.pt ou *.safetensors.

Comment ajouter l'inversion textuelle à la diffusion stable ?

Pour ajouter l'inversion textuelle à la diffusion stable, quelques étapes sont nécessaires. Tout d'abord, vous devez télécharger un fichier d'inversion textuelle (incorporation). Les meilleurs endroits pour trouver ces fichiers sont Civitai et Hugging Face. Après avoir téléchargé le fichier, placez-le dans le dossier approprié si vous utilisez un outil tel que AUTOMATIC1111’s Stable Diffusion WebUI (opens in a new tab).

Les inversions textuelles fonctionnent avec un mot-clé ou un mot d'activation. Ce mot d'activation vous est généralement présenté au même endroit où vous avez téléchargé l'incorporation. Utilisez ces mots d'activation dans votre texte pour activer l'inversion textuelle lors du processus de génération d'image.

Par exemple, si vous utilisez le WebUI d'AUTOMATIC1111, vous pouvez :

Cliquer sur l'icône "image" située sous le bouton "Générer" pour afficher les inversions textuelles disponibles.
Lorsque vous cliquez sur l'inversion textuelle, elle sera appliquée au bon texte d'activation.
Si votre mot d'activation est "robot-art", vous pouvez l'inclure dans votre texte d'activation, par exemple "Générer une image avec robot-art".

Combien d'images sont nécessaires pour l'inversion textuelle de la diffusion stable ?

Remarquablement, l'inversion textuelle peut atteindre son objectif avec seulement 3 à 5 images d'exemple. Le processus permet une création personnalisée en composant des phrases en langage naturel utilisant ces nouveaux "mots" dans l'espace d'incorporation du modèle. Une incorporation d'un seul mot est souvent suffisante pour capturer des concepts divers et distincts.

Par exemple, supposons que vous souhaitiez générer une image d'un "coucher de soleil sur la plage". Avec seulement quelques images d'exemple de couchers de soleil sur la plage, vous pouvez entraîner le modèle à comprendre ce concept. Votre texte d'activation peut être quelque chose comme :

Exemple de texte d'activation : "Générer une image d'un coucher de soleil sur la plage."

De même, si vous souhaitez générer une image d'un "motif floral", vous pouvez utiliser quelques images d'exemple de motifs floraux pour entraîner le modèle. Votre texte d'activation peut être :

Exemple de texte d'activation : "Générer une image avec un motif floral."

En fournissant ces exemples de texte d'activation, le modèle peut comprendre le concept souhaité et générer des images en conséquence.

Cependant, bien que l'inversion textuelle fonctionne généralement bien avec un petit nombre d'images d'exemple, il est important de noter que la qualité et la diversité des images peuvent influencer le résultat. L'utilisation d'un ensemble de données plus large et plus diversifié peut aider à améliorer la capacité du modèle à générer des images précises et créatives.

Comment entraîner votre visage dans la diffusion stable ?

Comment entraîner votre visage dans la diffusion stable

L'entraînement de votre visage dans la diffusion stable implique un processus similaire à l'inversion textuelle. Tout d'abord, vous devez rassembler un ensemble d'images de votre visage. Ces images doivent être variées, couvrant différents angles, expressions et conditions d'éclairage. Plus votre ensemble de données est varié, meilleur sera le modèle pour générer de nouvelles images qui vous ressemblent. Une fois que vous avez votre ensemble de données, vous pouvez utiliser un outil tel que l'interface utilisateur Web de diffusion stable AUTOMATIC1111 pour entraîner votre modèle. Le processus consiste à introduire vos images dans le modèle et à lui permettre d'apprendre les motifs et les caractéristiques qui composent votre visage. Cela se fait par le biais d'un processus appelé fine-tuning, où les connaissances existantes du modèle sont ajustées pour mieux correspondre aux nouvelles données.

Voici quelques facteurs clés à prendre en compte lors du processus:

Invite négative : Exclure des éléments ou des concepts spécifiques des images générées.
Seed : Déterminer l'aléatoire dans la génération d'images.
Nombre d'images : Choisissez le nombre total d'images que vous souhaitez créer.
Sélection du modèle : Optez pour différents modèles pour obtenir des résultats diversifiés.
Taille de l'image : Contrôlez les dimensions des images de sortie.
Echelle de guidage : Ajustez le niveau d'adhérence à l'invite.
Modificateurs d'image : Utilisez des outils supplémentaires pour affiner et améliorer vos invites.

Par exemple, si vous souhaitez que le modèle génère des images de vous en train de sourire, vous pouvez utiliser une invite de texte comme

"Générer une image avec mon-sourire".

Le modèle générera ensuite une image basée sur le concept de "mon-sourire", qu'il a appris pendant le processus de fine-tuning.

Téléchargement de l'inversion textuelle Stable Diffusion

Le téléchargement de l'inversion textuelle pour Stable Diffusion est un processus simple. Les meilleurs endroits pour trouver ces fichiers sont Civitai et Hugging Face. Ces plateformes hébergent une variété de fichiers d'inversion textuelle que vous pouvez utiliser pour ajouter de nouveaux styles ou objets à vos modèles texte-image.

Une fois que vous avez trouvé un fichier d'inversion textuelle qui convient à vos besoins, il vous suffit de le télécharger et de le placer dans le dossier approprié. Si vous utilisez un outil tel que l'interface utilisateur Web de diffusion stable AUTOMATIC1111, il s'agit de ce dossier :

*\stable-diffusion-webui\embeddings

Par exemple, si vous avez téléchargé un fichier d'inversion textuelle pour "robot-art", vous placeriez ce fichier dans le dossier des embeddings. Ensuite, lorsque vous souhaitez générer une image basée sur ce concept, vous pouvez utiliser une invite de texte comme "Générer une image avec robot-art".

Où placer l'inversion textuelle Stable Diffusion ?

Une fois que vous avez téléchargé un fichier d'inversion textuelle, la prochaine étape consiste à le placer au bon endroit. Si vous utilisez un outil tel que l'interface utilisateur Web de diffusion stable AUTOMATIC1111, vous devez placer le fichier dans ce dossier :

*\stable-diffusion-webui\embeddings

Il est important de noter que le fichier d'inversion textuelle doit correspondre au format attendu par l'outil que vous utilisez. La plupart des fichiers d'inversion textuelle utilisent l'extension de fichier *.pt ou *.safetensors. Si votre fichier est dans un format différent, vous devrez peut-être le convertir avant de pouvoir l'utiliser.

Vous voulez écrire de bonnes invites de diffusion stable ? Vous pouvez consulter notre Guide des invites de diffusion stable pour commencer !

FAQ

Qu'est-ce que l'inversion textuelle Stable Diffusion ? L'inversion textuelle Stable Diffusion est une technique qui vous permet d'ajouter de nouveaux styles ou objets à vos modèles texte-image sans modifier le modèle sous-jacent. Elle fonctionne en définissant un nouveau mot-clé représentant le concept désiré et en trouvant le vecteur d'encastrement correspondant dans le modèle de langue.
Comment entraîner un modèle d'inversion textuelle Stable Diffusion ? Pour entraîner un modèle d'inversion textuelle Stable Diffusion, vous devrez rassembler un ensemble d'images qui représentent le concept que vous souhaitez ajouter à votre modèle. Une fois que vous avez vos images, vous pouvez utiliser un outil comme l'interface utilisateur Web de diffusion stable AUTOMATIC1111 pour entraîner votre modèle. Le processus consiste à introduire vos images dans le modèle et à lui permettre d'apprendre les motifs et les caractéristiques qui composent votre concept.
Où puis-je télécharger des fichiers d'inversion textuelle ? Vous pouvez télécharger des fichiers d'inversion textuelle sur des plateformes comme Civitai et Hugging Face. Ces plateformes hébergent une variété de fichiers d'inversion textuelle que vous pouvez utiliser pour ajouter de nouveaux styles ou objets à vos modèles texte-image.

Leonardo AI vs Midjourney: Make the Right Choice Utilisation de StableStudio pour une expérience utilisateur Stable Diffusion optimale