O Guia Definitivo para Escrever Ótimos Prompters para Stable Diffusion

Name: Matt Popovic

Published on 02/07/2023

Stable Diffusion é o mais recente gerador de imagens de IA que é a Alternativa de Código Aberto para Midjourney e DaLL-E. Assim como outras IA geradoras, como ChatGPT, é preciso aprender a escrever bons prompts para Stable Diffusion. Neste artigo, você vai aprender a escrever prompts para Stable Diffusion sem muito esforço.

O Stable Diffusion é uma tecnologia poderosa de síntese de imagens impulsionada por IA que pode gerar imagens de alta qualidade a partir de prompts textuais. No entanto, criar o prompt perfeito para alcançar o resultado desejado pode ser desafiador. Neste guia abrangente, exploraremos as melhores práticas e técnicas para escrever prompts efetivos para o Stable Diffusion, garantindo que você obtenha o máximo dessa tecnologia de ponta.

📚

1. Compreendendo o Stable Diffusion

O Stable Diffusion é uma tecnologia de síntese de imagem que usa uma combinação de modelos de IA e técnicas de geração de imagem para criar imagens altamente realistas com base em prompts textuais. Ao inserir um prompt de texto, o sistema gera imagens que correspondem à descrição, permitindo que os usuários criem visuais únicos e personalizados para uma ampla gama de aplicações.

2. A Importância de Prompts Eficazes

A qualidade das imagens geradas pelo Stable Diffusion depende muito da eficácia do prompt. Um prompt bem elaborado pode guiar o modelo de IA na geração de imagens que correspondam de perto ao resultado desejado, enquanto um prompt não claro ou vago pode levar a resultados inesperados ou insatisfatórios. Portanto, entender como escrever prompts eficazes é crucial para obter o máximo da tecnologia Stable Diffusion.

3. Elementos de Um Bom Prompt

Um bom prompt do Stable Diffusion deve ser:

Claro e específico: Descreva o assunto e a cena em detalhes para ajudar o modelo de IA a gerar imagens precisas.
Conciso: Use linguagem concisa e evite palavras desnecessárias que possam confundir o modelo ou diluir o significado pretendido.
Relevante: Use palavras-chave e frases relevantes que estejam relacionadas ao assunto e à cena.
Não ambíguo: Evite palavras ou frases ambíguas que possam ter múltiplas interpretações.

4. Limites de Token e Como Contorná-los

Os modelos Stable Diffusion têm um limite de token, que se refere ao número máximo de palavras ou frases que podem ser usadas em um prompt. Para o modelo básico Stable Diffusion v1, o limite é de 75 tokens. Os tokens não são iguais às palavras, pois o modelo divide o texto em unidades menores conhecidas como tokens.

Se o seu prompt exceder o limite de token, você pode dividi-lo em pedaços menores e processá-los independentemente. As representações resultantes podem então ser concatenadas antes de serem alimentadas no Stable Diffusion U-Net.

5. Seleção e Avaliação de Palavras-chave

Palavras-chave desempenham um papel crítico em orientar o modelo de IA a gerar imagens relevantes. Ao selecionar palavras-chave para o seu prompt, considere o seguinte:

Relevância: escolha palavras-chave que estejam diretamente relacionadas ao assunto e à cena que você deseja gerar.
Popularidade: palavras-chave populares são mais propensas a serem reconhecidas e compreendidas pelo modelo de IA.
Eficácia: teste palavras-chave individuais para ver se elas produzem o efeito desejado nas imagens geradas.

6. Gerenciando a Variação na Geração de Imagens

Para controlar a variação nas imagens geradas pelo Stable Diffusion, você pode:

Adicionar mais detalhes ao seu prompt: fornecendo descrições mais específicas, você pode reduzir as possíveis interpretações do seu prompt e reduzir a variação nas imagens geradas.
Limitar o número de palavras-chave: usar menos palavras-chave pode ajudar a focar o modelo de IA em um conjunto menor de possibilidades, reduzindo a variação nas imagens geradas.

7. Compreendendo os Efeitos de Associação

Os efeitos de associação ocorrem quando certos atributos ou elementos são fortemente correlacionados na compreensão do modelo de IA. Essas associações podem levar a consequências não intencionais nas imagens geradas. Para gerenciar os efeitos de associação:

Esteja ciente de associações comuns, como etnia e cor dos olhos, e planeje seus prompts adequadamente.
Seja cauteloso ao usar nomes de celebridades ou artistas, pois eles podem carregar associações não intencionais com poses, roupas ou estilos.
Teste seus prompts para identificar quaisquer efeitos de associação não intencionais e ajuste o prompt conforme necessário.

8. Usando embeddings e modelos personalizados

Os embeddings são combinações de palavras-chave que podem ser usados para modificar o estilo ou aparência das imagens geradas. Embora os embeddings sejam destinados a ajustar aspectos específicos de uma imagem, eles podem ter efeitos inesperados devido à natureza de suas palavras-chave subjacentes.

Para usar embeddings de forma eficaz:

Esteja ciente dos possíveis efeitos inesperados, como mudanças no fundo, na pose do sujeito ou em outros elementos da imagem.
Teste seus prompts com e sem embeddings para entender seu impacto nas imagens geradas.

Os modelos personalizados são modelos de IA que foram ajustados para tarefas ou estilos específicos. Embora os modelos personalizados possam ajudá-lo a alcançar um estilo desejado com mais facilidade, é essencial lembrar que o significado de certas palavras-chave ou estilos pode mudar ao usar um modelo personalizado.

Melhores modelos personalizados do Stable Diffusion

Para obter o máximo dos modelos personalizados:

Esteja ciente de como o modelo escolhido pode alterar a interpretação das palavras-chave ou estilos do seu prompt.
Teste seus prompts com diferentes modelos personalizados para encontrar o que melhor atenda às suas necessidades.

FAQ

O que é um prompt do Stable Diffusion? O Stable Diffusion é um modelo de linguagem criado pela OpenAI que gera texto com base em um prompt fornecido. O prompt do Stable Diffusion é a entrada de texto inicial usada para gerar a saída.

Quais são exemplos de prompts para o Stable Diffusion? Exemplos de prompts para o Stable Diffusion podem ser desde uma única palavra até uma frase ou parágrafo completo. Por exemplo, um prompt para um modelo Stable Diffusion treinado em artigos de notícias poderia ser "O presidente deu um discurso hoje sobre..."

Qual é o tamanho de um prompt no Stable Diffusion? O tamanho de um prompt para o Stable Diffusion pode variar dependendo do modelo e do comprimento da saída desejada. Alguns modelos podem ser treinados com prompts curtos de apenas algumas palavras, enquanto outros podem exigir prompts mais longos ou até mesmo parágrafos inteiros de texto.

Qual é a saída de um prompt do Stable Diffusion para uma imagem? O Stable Diffusion é um modelo de linguagem e não gera imagens diretamente. No entanto, ele pode ser usado para gerar descrições de texto de imagens ou para gerar textos que podem ser usados como legendas para imagens.

O Stable Diffusion está roubar imagens? Não, o Stable Diffusion não rouba imagens. É um modelo de linguagem que gera texto com base no prompt fornecido e não tem acesso ou interage diretamente com as imagens.

Conclusão

Escrever prompts de Stable Diffusion eficazes é uma arte que requer um profundo entendimento do funcionamento interno do modelo de IA, seleção de palavras-chave e o potencial de associações ou efeitos indesejados. Seguindo as melhores práticas descritas neste guia, você pode aproveitar todo o potencial do Stable Diffusion para gerar imagens impressionantes e de alta qualidade que correspondam à sua visão.

Lembre-se de experimentar com seus prompts, testar diferentes palavras-chave e estar atento aos efeitos de associação e ao impacto de modelos personalizados em suas imagens geradas. Com prática e persistência, você dominará a arte de criar o prompt de Stable Diffusion perfeito.