Skip to content
チュートリアル
AIGC
究極のステーブルディフュージョンテキスト逆転ガイド

究極のステーブルディフュージョンテキスト逆転ガイド

安定拡散におけるテキスト反転に関する包括的なガイドへようこそ。このガイドでは、テキスト反転による安定拡散の微調整方法について詳しく説明します。これは、少数の例示画像から新しい概念を取り込むための強力な手法です。このプロセスによって、テキストから画像を生成するモデルに対して個人化された画像生成を行うことができます。

安定拡散は、強力な潜在的なテキストから画像の拡散モデルであり、テキストから画像を生成する方法を革新しました。テキスト反転の追加により、モデルを変更せずにこれらのモデルに新しいスタイルやオブジェクトを追加することができます。このガイドでは、テキスト反転を使用して独自のモデルをトレーニングする手順をステップバイステップで説明します。

安定拡散におけるテキスト反転とは?

テキスト反転は、基になるモデルを変更せずにテキストから画像を生成するモデルに新しいスタイルやオブジェクトを追加する手法です。これは、所望の概念を表す新しいキーワードを定義し、言語モデル内の対応する埋め込みベクトルを見つけることによって実現されます。この手法により、ユーザーが提供した概念に基づいてモデルが画像を生成することが可能となります。通常、3〜5枚のサンプル画像が必要です。

たとえば、次のような文で「野生の自然やジャングルで描かれたロボットの絵」の画像を生成したいとします。

"robot-art" という新しいキーワードを定義し、それに対応する埋め込みベクトルを見つけます。その後、モデルはこの概念に基づいて画像を生成します。

このプロセスにより、テキストの埋め込み空間で自然言語の文を組み合わせることで、個別の「単語」を使用して個別の作成が可能となります。単語の埋め込みは、多様で明確な概念を捉えるのに十分な場合があります。テキスト反転(埋め込み)ファイルのサイズは通常10-100KBで、拡張子は *.pt や *.safetensorsです。

安定拡散にテキスト反転を追加する方法

安定拡散にテキスト反転を追加するには、いくつかの手順が必要です。まず、テキスト反転(埋め込み)ファイルをダウンロードする必要があります。これらのファイルを見つけるのに最適な場所は、CivitaiとHugging Faceです。ファイルのダウンロードが完了したら、AUTOMATIC1111の安定拡散WebUI (opens in a new tab)などのツールを使用して、適切なフォルダに配置します。

テキスト反転はキーワードまたはトリガーワードと連動して機能します。このトリガーワードは、埋め込みのダウンロード場所と同じ場所で表示されます。画像生成プロセス中にこれらのトリガーワードをテキストプロンプトで使用して、テキスト反転をアクティベートさせることができます。

たとえば、AUTOMATIC1111のWebUIを使用している場合は、次のようにします。

  • 生成ボタンの下にある小さな「画像」アイコンをクリックして、利用可能なテキスト反転を表示します。
  • テキスト反転をクリックすると、正しいテキストプロンプトに適用されます。
  • トリガーワードが「robot-art」である場合、テキストプロンプトに「robot-artを使用して画像を生成する」と入れることができます。

安定拡散におけるテキスト反転には何枚の画像が必要ですか?

驚くべきことに、テキスト反転は3〜5枚のサンプル画像で目的を達成することができます。このプロセスにより、テキストの埋め込み空間で自然言語の文を組み合わせることで、個別の「単語」を使用して多様な概念を捉えることができます。

たとえば、「ビーチの夕日」の画像を生成したい場合、ビーチの夕日のいくつかのサンプル画像だけで、モデルにこの概念を理解させることができます。テキストプロンプトは次のようになります。

サンプルプロンプト: "ビーチの夕日の画像を生成してください。"

同様に、「花の柄」の画像を生成したい場合、いくつかの花の柄のサンプル画像を使用してモデルをトレーニングすることができます。テキストプロンプトは次のようになります。

サンプルプロンプト: "花の柄のある画像を生成してください。"

これらのサンプルプロンプトを提供することで、モデルは所望の概念を理解し、それに基づいて画像を生成することができます。

ただし、テキスト反転は一般的に少数のサンプル画像でうまく機能しますが、画像の品質と多様性は出力に影響を与えることに注意する必要があります。より大きく、より多様なデータセットを使用することで、モデルの正確さと創造性を向上させることができます。

安定拡散での自分の顔のトレーニング方法

安定拡散での自分の顔のトレーニング方法

安定拡散で自分の顔をトレーニングする方法は、テキスト反転と同様のプロセスです。まず、自分の顔の一連の画像を集める必要があります。これらの画像は、異なる角度、表情、照明条件をカバーし、多様さを持つ必要があります。データセットがより多様であればあるほど、モデルは自分の特徴を捉えた新しい画像を生成する能力が向上します。 データセットを入手したら、AUTOMATIC1111のStable Diffusion WebUIなどのツールを使用してモデルをトレーニングすることができます。このプロセスでは、画像データをモデルに入力し、顔のパターンや特徴を学習させます。この学習は、既存のモデルの知識を微調整して新しいデータに適合させるというプロセスで行われます。

以下は、このプロセスで考慮する必要があるいくつかの重要な要素です。

  • ネガティブプロンプト:生成された画像から特定の要素や概念を除外します。
  • シード:画像生成時のランダム性を決定します。
  • 画像の数:生成する画像の総数を選択します。
  • モデルの選択:異なるモデルを選択して多様な結果を生成します。
  • 画像のサイズ:出力画像の寸法を制御します。
  • ガイダンススケール:プロンプトへの遵守レベルを調整します。
  • 画像修飾子:プロンプトを改善するための追加のツールを利用します。

たとえば、モデルに自分が笑っているような画像を生成させたい場合、次のようなテキストプロンプトを使用することができます。

"私の笑顔を持つ画像を生成してください"

そうすることで、モデルは「私の笑顔」という概念に基づいて画像を生成します。これは、微調整プロセス中に学習した概念です。

Stable Diffusionテキスト反転のダウンロード

Stable Diffusionのテキスト反転をダウンロードすることは、簡単なプロセスです。これらのファイルを見つけるのに最適な場所はCivitaiとHugging Faceです。これらのプラットフォームでは、テキストから画像への変換モデルに新しいスタイルやオブジェクトを追加するために使用できるさまざまなテキスト反転ファイルが提供されています。

必要なテキスト反転ファイルを見つけたら、ダウンロードして適切なフォルダに配置します。AUTOMATIC1111のStable Diffusion WebUIなどのツールを使用している場合、これは次のフォルダになります。

*\stable-diffusion-webui\embeddings

たとえば、「robot-art」向けのテキスト反転ファイルをダウンロードした場合、このファイルをembeddingsフォルダに配置します。その後、この概念に基づいて画像を生成したい場合、次のようなテキストプロンプトを使用します。「ロボットアートの画像を生成してください」。

テキスト反転のStable Diffusionの保存場所

テキスト反転ファイルをダウンロードしたら、次のステップは正しい場所に配置することです。AUTOMATIC1111のStable Diffusion WebUIなどのツールを使用している場合、ファイルを次のフォルダに配置する必要があります。

*\stable-diffusion-webui\embeddings

重要なことは、テキスト反転ファイルが使用しているツールの予期される形式と一致する必要があるということです。ほとんどのテキスト反転ファイルは*.ptまたは*.safetensorsの拡張子を使用しています。別の形式の場合は、使用する前に変換する必要がある場合があります。

たとえば、「robot-art」向けのテキスト反転ファイルをダウンロードした場合、このファイルをembeddingsフォルダに配置します。その後、この概念に基づいて画像を生成したい場合、次のようなテキストプロンプトを使用します。「ロボットアートの画像を生成してください」。

Stable Diffusionプロンプトを書くための素晴らしいガイドを読みたいですか?Stable Diffusionプロンプトガイドを読んで、始めましょう!

FAQ

  1. Stable Diffusionテキスト反転とは何ですか? Stable Diffusionテキスト反転は、基礎となるモデルを変更せずにテキストから画像への変換モデルに新しいスタイルやオブジェクトを追加するための技術です。これは、目的の概念を表す新しいキーワードを定義し、言語モデル内の対応する埋め込みベクトルを見つけることで機能します。

  2. Stable Diffusionテキスト反転モデルをトレーニングするにはどうすればいいですか? Stable Diffusionテキスト反転モデルをトレーニングするには、モデルに追加したい概念を表す一連の画像を収集する必要があります。画像を収集したら、AUTOMATIC1111のStable Diffusion WebUIなどのツールを使用してモデルをトレーニングすることができます。このプロセスでは、画像データをモデルに入力し、概念を構成するパターンや特徴を学習させます。

  3. どこでテキスト反転ファイルをダウンロードできますか? CivitaiやHugging Faceなどのプラットフォームからテキスト反転ファイルをダウンロードすることができます。これらのプラットフォームでは、テキストから画像への変換モデルに新しいスタイルやオブジェクトを追加するために使用できるさまざまなテキスト反転ファイルが提供されています。