O Guia Definitivo de Inversão Textual de Stable Diffusion

Name: Naomi Clarkson

Published on 17/08/2023

Um guia completo para ajustar a Difusão Estável para inversão textual. Aprenda como adicionar novos estilos ou objetos aos seus modelos de texto-imagem sem modificar o modelo subjacente.

Bem-vindo ao nosso guia completo sobre a Inversão Textual de Difusão Estável. Neste guia, exploraremos como ajustar a Difusão Estável para inversão textual, uma técnica poderosa para capturar conceitos novos a partir de um pequeno número de imagens de exemplo. Esse processo permite a geração personalizada de imagens, oferecendo um novo nível de controle sobre as imagens geradas a partir de pipelines de texto-imagem.

A Difusão Estável, um modelo potente de difusão latente de texto-imagem, revolucionou a forma como geramos imagens a partir de texto. Com a adição da inversão textual, agora podemos adicionar novos estilos ou objetos a esses modelos sem modificar o modelo subjacente. Este guia fornecerá um processo passo a passo para treinar seu próprio modelo usando a inversão textual.

O que é Inversão Textual na Difusão Estável?

A inversão textual é uma técnica que nos permite adicionar novos estilos ou objetos a modelos de texto-imagem sem modificar o modelo subjacente. Envolve a definição de uma nova palavra-chave que representa o conceito desejado e encontrar o vetor de incorporação correspondente dentro do modelo de linguagem. Essa técnica permite que o modelo gere imagens com base no conceito fornecido pelo usuário, muitas vezes exigindo apenas de 3 a 5 imagens de exemplo.

Por exemplo, se você quiser gerar uma imagem de um

"robô desenhando na natureza selvagem, na selva"

Você pode definir uma nova palavra-chave "arte-robótica" e encontrar seu vetor de incorporação correspondente. O modelo então gerará uma imagem com base nesse conceito.

O processo permite a criação personalizada por meio da composição de frases em linguagem natural usando essas novas "palavras" no espaço de incorporação do modelo. Muitas vezes, um vetor de incorporação de uma única palavra é suficiente para capturar conceitos diversos e distintos. Arquivos de inversão textual (incorporações) geralmente têm tamanho de 10-100KB e usam as extensões de arquivo *.pt ou *.safetensors.

Como Adicionar Inversão Textual à Difusão Estável?

Adicionar inversão textual à Difusão Estável envolve alguns passos. Primeiro, você precisa baixar um arquivo de inversão textual (incorporação). Os melhores lugares para encontrar esses arquivos são Civitai e Hugging Face. Após fazer o download do arquivo, coloque-o na pasta apropriada se estiver usando uma ferramenta como Stable Diffusion WebUI do AUTOMATIC1111 (opens in a new tab).

As inversões textuais funcionam com uma palavra-chave ou palavra de disparo. Essa palavra de disparo geralmente é mostrada no mesmo local onde você baixou a incorporação. Use essas palavras de disparo no seu texto para ativar a inversão textual durante o processo de geração de imagens.

Por exemplo, se você estiver usando o WebUI do AUTOMATIC1111, você pode:

Clicar no ícone de "imagem" abaixo do botão Gerar para mostrar as inversões textuais disponíveis.
Ao clicar na inversão textual, ela será aplicada ao prompt de texto correto.
Se sua palavra de disparo for "arte-robótica", você pode incluí-la em seu prompt de texto, como "Gerar uma imagem com arte-robótica".

Quantas Imagens são Necessárias para a Inversão Textual em Difusão Estável?

Surpreendentemente, a inversão textual pode alcançar seu objetivo com apenas 3 a 5 imagens de exemplo. O processo permite a criação personalizada por meio da composição de frases em linguagem natural usando essas novas "palavras" no espaço de incorporação do modelo. Muitas vezes, o vetor de incorporação de uma única palavra é suficiente para capturar conceitos diversos e distintos.

Por exemplo, digamos que você queira gerar uma imagem de um "pôr do sol na praia". Com apenas algumas imagens de exemplo de pôr do sol na praia, você pode treinar o modelo a entender esse conceito. Seu prompt de texto pode ser algo como:

Prompt de exemplo: "Gerar uma imagem de um pôr do sol na praia."

Da mesma forma, se você quiser gerar uma imagem de um "padrão floral", pode usar algumas imagens de exemplo de padrões florais para treinar o modelo. Seu prompt de texto pode ser:

Prompt de exemplo: "Gerar uma imagem com um padrão floral."

Ao fornecer esses prompts de exemplo, o modelo pode entender o conceito desejado e gerar imagens de acordo.

No entanto, embora a inversão textual geralmente funcione bem com um pequeno número de imagens de exemplo, é importante observar que a qualidade e diversidade das imagens podem impactar o resultado. O uso de um conjunto de dados maior e mais diversificado pode ajudar a melhorar a capacidade do modelo de gerar imagens precisas e criativas.

Como Treinar seu Rosto em Difusão Estável?

Como Treinar seu Rosto em Difusão Estável

Treinar seu rosto em Difusão Estável envolve um processo semelhante à inversão textual. Primeiro, você precisa reunir um conjunto de imagens do seu rosto. Essas imagens devem ser diversas, abrangendo diferentes ângulos, expressões e condições de iluminação. Quanto mais variado o seu conjunto de dados, melhor o modelo será capaz de gerar novas imagens que capturem sua semelhança. Depois que você tiver seu conjunto de dados, você pode usar uma ferramenta como a interface de usuário da Stable Diffusion WebUI da AUTOMATIC1111 para treinar seu modelo. O processo envolve alimentar suas imagens no modelo e permitir que ele aprenda os padrões e características que compõem seu rosto. Isso é feito através de um processo chamado fine-tuning, onde o conhecimento existente do modelo é ajustado para se adequar melhor aos novos dados.

Aqui estão alguns fatores-chave que você precisa considerar durante o processo:

Prompt Negativo: Exclua elementos ou conceitos específicos das imagens geradas.
Seed: Determine a aleatoriedade na geração de imagens.
Número de Imagens: Escolha o número total de imagens que você deseja criar.
Seleção de Modelo: Opte por diferentes modelos para obter resultados diversos.
Tamanho da Imagem: Controle as dimensões das imagens de saída.
Escala de Orientação: Ajuste o nível de adesão ao prompt.
Modificadores de Imagem: Utilize ferramentas adicionais para refinar e aprimorar seus prompts.

Por exemplo, se você quiser que o modelo gere imagens de você sorrindo, você pode usar um prompt de texto como

"Gerar uma imagem com meu-sorriso".

O modelo então geraria uma imagem com base no conceito de "meu-sorriso", que ele aprendeu durante o processo de fine-tuning.

Download de Inversão Textual da Stable Diffusion

Fazer o download de uma inversão textual para a Stable Diffusion é um processo simples. Os melhores lugares para encontrar esses arquivos são Civitai e Hugging Face. Essas plataformas hospedam uma variedade de arquivos de inversão textual que você pode usar para adicionar novos estilos ou objetos aos seus modelos de texto para imagem.

Uma vez que você encontrou um arquivo de inversão textual que atenda às suas necessidades, basta fazer o download e colocá-lo na pasta apropriada. Se você estiver usando uma ferramenta como a interface de usuário da Stable Diffusion WebUI da AUTOMATIC1111, esta seria a pasta:

*\stable-diffusion-webui\embeddings

Por exemplo, se você baixou um arquivo de inversão textual para "arte-de-robô", você colocaria esse arquivo na pasta de embeddings. Em seguida, quando você quiser gerar uma imagem com base nesse conceito, você pode usar um prompt de texto como "Gerar uma imagem com arte-de-robô".

Onde Colocar a Inversão Textual da Stable Diffusion?

Depois de baixar um arquivo de inversão textual, o próximo passo é colocá-lo no local correto. Se você estiver usando uma ferramenta como a interface de usuário da Stable Diffusion WebUI da AUTOMATIC1111, você deve colocar o arquivo nesta pasta:

*\stable-diffusion-webui\embeddings

É importante observar que o arquivo de inversão textual deve corresponder ao formato esperado pela ferramenta que você está usando. A maioria dos arquivos de inversão textual usa a extensão de arquivo *.pt ou *.safetensors. Se o seu arquivo estiver em um formato diferente, talvez seja necessário convertê-lo antes de poder usá-lo.

Quer escrever ótimos prompts para a Stable Diffusion? Você pode ler o nosso guia de prompts da Stable Diffusion para começar!

FAQ

O que é Inversão Textual da Stable Diffusion? A Inversão Textual da Stable Diffusion é uma técnica que permite adicionar novos estilos ou objetos aos modelos de texto para imagem sem modificar o modelo subjacente. Funciona definindo uma nova palavra-chave que representa o conceito desejado e encontrando o vetor de incorporação correspondente no modelo de linguagem.
Como treinar um modelo de Inversão Textual da Stable Diffusion? Para treinar um modelo de Inversão Textual da Stable Diffusion, você precisará reunir um conjunto de imagens que representem o conceito que você deseja adicionar ao seu modelo. Depois de ter suas imagens, você pode usar uma ferramenta como a interface de usuário da Stable Diffusion WebUI da AUTOMATIC1111 para treinar seu modelo. O processo envolve alimentar suas imagens no modelo e permitir que ele aprenda os padrões e características que compõem seu conceito.
Onde posso baixar arquivos de Inversão Textual? Você pode baixar arquivos de Inversão Textual de plataformas como Civitai e Hugging Face. Essas plataformas hospedam uma variedade de arquivos de inversão textual que você pode usar para adicionar novos estilos ou objetos aos seus modelos de texto para imagem.

O Guia Definitivo de Inversão Textual de Stable Diffusion Um Guia Abrangente para Usar a API ElevenLabs para Python