La Guía Definitiva de Inversión Textual de Stable Diffusion

Name: Naomi Clarkson

Published on 17/8/2023

Una guía completa sobre cómo ajustar Stable Diffusion para la inversión textual. Aprende a agregar nuevos estilos u objetos a tus modelos de texto a imagen sin modificar el modelo subyacente.

Bienvenido a nuestra guía completa sobre la inversión textual en Stable Diffusion. En esta guía, exploraremos cómo ajustar Stable Diffusion para la inversión textual, una técnica poderosa para capturar conceptos novedosos a partir de un pequeño número de imágenes de ejemplo. Este proceso permite generar imágenes personalizadas, ofreciendo un nuevo nivel de control sobre las imágenes generadas a partir de tuberías de texto a imagen.

Stable Diffusion, un potente modelo de difusión latente de texto a imagen, ha revolucionado la forma en que generamos imágenes a partir de texto. Con la adición de la inversión textual, ahora podemos agregar nuevos estilos u objetos a estos modelos sin modificar el modelo subyacente. Esta guía te proporcionará un proceso paso a paso para entrenar tu propio modelo utilizando la inversión textual.

¿Qué es la inversión textual en Stable Diffusion?

La inversión textual es una técnica que nos permite agregar nuevos estilos u objetos a modelos de texto a imagen sin modificar el modelo subyacente. Implica definir una nueva palabra clave que representa el concepto deseado y encontrar el vector de incrustación correspondiente dentro del modelo de lenguaje. Esta técnica permite que el modelo genere imágenes basadas en el concepto proporcionado por el usuario, a menudo requiriendo solo de 3 a 5 imágenes de muestra.

Por ejemplo, si deseas generar una imagen de un

"robot dibujando en la naturaleza salvaje, en la selva"

Puedes definir una nueva palabra clave "robot-arte" y encontrar su vector de incrustación correspondiente. El modelo generará entonces una imagen basada en este concepto.

El proceso permite la creación personalizada a través de la composición de oraciones en lenguaje natural utilizando estas nuevas "palabras" en el espacio de incrustación del modelo. Una sola incrustación de una palabra suele ser suficiente para capturar conceptos diversos y distintos. Los archivos de inversión textual (incrustaciones) suelen tener un tamaño de 10 a 100 KB y usan la ext

ensión de archivo *.pt o *.safetensors.

¿Cómo agregar inversión textual a Stable Diffusion?

Agregar inversión textual a Stable Diffusion implica algunos pasos. Primero, necesitas descargar un archivo de inversión textual (incrustación). Los mejores lugares para encontrar estos archivos son Civitai y Hugging Face. Después de descargar el archivo, colócalo en la carpeta adecuada si estás utilizando una herramienta como AUTOMATIC1111's Stable Diffusion WebUI (opens in a new tab).

Las inversiones textuales funcionan con una palabra clave o trigger word. Esta palabra clave generalmente se muestra en el mismo lugar donde has descargado la incrustación. Utiliza estas palabras clave en tu indicación de texto para activar la inversión textual durante el proceso de generación de imágenes.

Por ejemplo, si estás utilizando el WebUI de AUTOMATIC1111, puedes:

Hacer clic en el pequeño ícono de "imagen" debajo del botón Generar para mostrar las inversiones textuales disponibles.
Cuando hagas clic en la Inversión textual, se aplicará a la indicación de texto correcta.
Si tu palabra clave es "robot-arte", puedes incluirla en tu indicación de texto como "Generar una imagen con robot-arte".

¿Cuántas imágenes se necesitan para la inversión textual en Stable Diffusion?

Sorprendentemente, la inversión textual puede lograr su objetivo con tan solo 3 a 5 imágenes de muestra. El proceso permite la creación personalizada a través de la composición de oraciones en lenguaje natural utilizando estas nuevas "palabras" en el espacio de incrustación del modelo. Una sola incrustación de una palabra suele ser suficiente para capturar conceptos diversos y distintos.

Por ejemplo, supongamos que deseas generar una imagen de un "atardecer en la playa". Con solo unas pocas imágenes de muestra de atardeceres en la playa, puedes entrenar al modelo para entender este concepto. Tu indicación de texto puede ser algo como:

Indicación de muestra: "Generar una imagen de un atardecer en la playa."

De manera similar, si deseas generar una imagen de un "patrón floral", puedes utilizar unas pocas imágenes de muestra de patrones florales para entrenar al modelo. Tu indicación de texto puede ser:

Indicación de muestra: "Generar una imagen con un patrón floral."

Al proporcionar estas indicaciones de muestra, el modelo puede comprender el concepto deseado y generar imágenes en consecuencia.

Sin embargo, aunque la inversión textual generalmente funciona bien con un número pequeño de imágenes de muestra, es importante tener en cuenta que la calidad y diversidad de las imágenes pueden afectar el resultado. Utilizar un conjunto de datos más grande y diverso puede ayudar a mejorar la capacidad del modelo para generar imágenes precisas y creativas.

¿Cómo entrenar tu rostro en Stable Diffusion?

Cómo entrenar tu rostro en Stable Diffusion

Entrenar tu rostro en Stable Diffusion implica un proceso similar a la inversión textual. Primero, debes recopilar un conjunto de imágenes de tu rostro. Estas imágenes deben ser diversas, cubriendo diferentes ángulos, expresiones y condiciones de iluminación. Cuanto más variado sea tu conjunto de datos, mejor será el modelo para generar nuevas imágenes que capturen tu apariencia.

Una vez que tengas tu conjunto de datos, puedes utilizar una herramienta como el WebUI de Stable Diffusion de AUTOMATIC1111 para entrenar tu modelo. El proceso implica alimentar tus imágenes al modelo y permitir que aprenda los patrones y características que componen tu rostro. Esto se realiza a través de un proceso llamado ajuste fino, en el que se ajusta el conocimiento existente del modelo para adaptarlo mejor a los nuevos datos.

Aquí hay algunos factores clave que debes tener en cuenta durante el proceso:

Indicación negativa: Excluir elementos o conceptos específicos de las imágenes generadas.
Semilla: Determinar la aleatoriedad en la generación de imágenes.
Número de imágenes: Elegir el número total de imágenes que deseas crear.
Selección del modelo: Optar por diferentes modelos para obtener resultados diversos.
Tamaño de la imagen: Controlar las dimensiones de las imágenes de salida.
Escala de guía: Ajustar el nivel de adhesión a la indicación.
Modificadores de imagen: Utilizar herramientas adicionales para refinar y mejorar tus indicaciones.

Por ejemplo, si deseas que el modelo genere imágenes de ti sonriendo, podrías usar una indicación de texto como:

"Generar una imagen con mi-sonrisa".

El modelo generaría entonces una imagen basada en el concepto de "mi-sonrisa", que aprendió durante el proceso de ajuste fino.

Descarga de la inversión textual en Stable Diffusion

Descargar la inversión textual para Stable Diffusion es un proceso sencillo. Los mejores lugares para encontrar estos archivos son Civitai y Hugging Face. Estas plataformas albergan una variedad de archivos de inversión textual que puedes utilizar para agregar nuevos estilos u objetos a tus modelos de texto a imagen.

Una vez que hayas encontrado un archivo de inversión textual que se adapte a tus necesidades, simplemente descárgalo y colócalo en la carpeta correspondiente. Si estás utilizando una herramienta como el WebUI de Stable Diffusion de AUTOMATIC1111, esta sería la carpeta:

*\stable-diffusion-webui\embeddings

Por ejemplo, si descargaste un archivo de inversión textual para "robot-arte", debes colocar este archivo en la carpeta de incrustaciones. Luego, cuando desees generar una imagen basada en este concepto, puedes usar una indicación de texto como "Generar una imagen con robot-arte".

¿Dónde colocar la inversión textual en Stable Diffusion?

Una vez que hayas descargado un archivo de inversión textual, el siguiente paso es colocarlo en la ubicación correcta. Si estás utilizando una herramienta como el WebUI de Stable Diffusion de AUTOMATIC1111, debes colocar el archivo en esta carpeta:

*\stable-diffusion-webui\embeddings

Es importante tener en cuenta que el archivo de inversión textual debe tener el formato esperado por la herramienta que estás utilizando. La mayoría de los archivos de inversión textual utilizan la extensión de archivo *.pt o *.safetensors. Si tu archivo está en un formato diferente, es posible que debas convertirlo antes de poder usarlo.

¿Quieres escribir excelentes indicaciones para Stable Diffusion? Puedes leer nuestra guía de indicaciones para Stable Diffusion para comenzar.

Preguntas frecuentes

¿Qué es la inversión textual en Stable Diffusion? La inversión textual en Stable Diffusion es una técnica que te permite agregar nuevos estilos u objetos a tus modelos de texto a imagen sin modificar el modelo subyacente. Funciona definiendo una nueva palabra clave que representa el concepto deseado y encontrando el vector de incrustación correspondiente dentro del modelo de lenguaje.
¿Cómo entreno un modelo de inversión textual en Stable Diffusion? Para entrenar un modelo de inversión textual en Stable Diffusion, debes recopilar un conjunto de imágenes que representen el concepto que deseas agregar a tu modelo. Una vez que tengas tus imágenes, puedes utilizar una herramienta como el WebUI de Stable Diffusion de AUTOMATIC1111 para entrenar tu modelo. El proceso implica alimentar tus imágenes al modelo y permitir que aprenda los patrones y características que componen tu concepto.
¿Dónde puedo descargar archivos de inversión textual? Puedes descargar archivos de inversión textual de plataformas como Civitai y Hugging Face. Estas plataformas albergan una variedad de archivos de inversión textual que puedes utilizar para agregar nuevos estilos u objetos a tus modelos de texto a imagen.

Leonardo AI vs Midjourney: Make the Right Choice Una Guía Completa para Usar la API de ElevenLabs en Python