4-4 高級設定

SeaArtでAIアートを微調整しよう!ネガティブプロンプト、VAE、サンプリング、CFGスケール、シード、クリップスキップを使って正確にコントロール。

作成プロセス:モデル選択 - プロンプト入力 - パラメータ調整 - 生成

ネガティブプロンプト

一般に、モデルは「no」、「not」、「except」、「without」などの否定を含むプロンプトを理解することが難しいです。したがって、画像に望まない効果を含める必要があります。画像に含めたくない要素を追加するだけでなく、「低品質」、「低詳細」、「醜い」、「変形した」などの言葉も含めることができます。これにより、最終画像の品質が向上します。通常、画像を生成する際、SeaArtは自動的にネガティブラベルを含めます。

(worst quality, low quality, normal quality, lowres, low details, oversaturated, undersaturated, overexposed, underexposed, grayscale, bw, bad photo, bad photography, bad art:1.4), (watermark, signature, tet font, username, error, logo, words, letters, digits, autograph, trademark, name:1.2), (blur, blurry, grainy), morbid, ugly, asymmetrical, mutated malformed, mutilated, poorly lit, bad shadow, draft, cropped, out of frame, cut off, censored, jpeg artifacts, out of focus, glitch, duplicate, (bad hands, bad anatomy, bad body, bad face, bad teeth, bad arms, bad legs, deformities:1.3)

VAE

VAEは、最適化アルゴリズムを通じて画像生成の品質を向上させ、視覚効果を強化する「フィルター」と見なすことができます。また、画像の形状にわずかな調整を加えることもできます。画像の色に問題がある場合は、異なるVAEに切り替えてみることができます。

よく使用されるVAE:

  • 自動:現在のタスクに最も適したVAE設定を自動的に選択します。

  • None: VAEを使用しません。

  • vae-ft-mse-840000-ema-pruned: リアルなカラースタイルで、840000はトレーニングの反復回数を示し、生成された画像の品質を向上させつつ、複雑さを減らし、効率を高めるのに役立ちます。

  • vae-ft-ema-560000-ema-pruned: リアルなカラースタイルで、560000回の反復でトレーニングされ、より速く、またはリソースを消費しない画像生成に適しています。

  • kl-f8-anime2: アニメスタイルの画像生成に最適化されています。

*一部のチェックポイントには内蔵のVAEがありますので、VAEを別途選択する必要はありません。

サンプリング

サンプリングの原則:

標準的なAIペインティングプロセスは、通常、ノイズの前方追加と後方ノイズ除去、復元、ターゲット生成を含みます。前方プロセスでは、入力データに継続的にノイズが追加され、サンプラーが後方プロセスでノイズ除去を担当します。

前方プロセス(右から左へ):主にトレーニングプロセス中に元の画像に徐々にノイズを加え、U-Netネットワークのノイズ予測能力を訓練します。

後方プロセス(左から右へ):訓練されたU-Netネットワークによって推定されたノイズを徐々にデノイジングし、最終的に画像を再現します。 これら二つのプロセスでは、AIが特定の画像を効果的にスクランブルし、その一部から学習して新しい画像を逆に生成します。つまり、前方プロセスが訓練されると、後方プロセスはノイジーな画像から完全に新しい画像を生成します。 クリアな画像を生成する前に、モデルは潜在空間でランダムな画像を生成する必要があります。ノイズ予測器が動作を開始し、画像から予測されたノイズを減算します。繰り返しのステップを経て、最終的にクリアな画像を得ます。この全デノイジングプロセスを「サンプリング」と呼び、サンプリングで使用される方法をサンプラーまたはサンプリング方法と呼びます。 サンプリング方法はデノイジングの方法を決定し、異なるサンプリング方法によって異なる画像結果が得られます。

*シードの数値は最初に生成される画像の初期ノイズを決定します。

サンプリング法

  1. 古典的なODEソルバー

Euler: 最もシンプルなソルバーです。

Heun: オイラー法よりも正確ですが、速度は遅いです。

LMS: 線形多段階法、オイラーと同じ速度ですが、より正確です。

収束:サンプリングステップの数が増えるにつれて、サンプリング結果は最終的に固定された画像に傾き、画像は徐々に安定します。

  1. [祖先サンプラー]:[ancestralサンプラー]

Euler a

DPM2 a

DPM++ 2S a

DPM++ 2S a Karras

これらのサンプラーは、各サンプリングステップでノイズを加えるため、ランダム性を示し収束しません。

非収束:画像はランダムで、いくつかの詳細が加わることがあります。安定した再現可能な結果を得るためには、祖先サンプラーの使用を避けるべきです。

*名前に「a」が含まれていない一部のサンプラーもランダムサンプラーです。

  1. DDIM, PLMS(現在はあまり使用されていません)

DDIM: デノイジング拡散暗黙のモデル、拡散モデル用に設計された最初のサンプラーです。

PLMS: 疑似線形多段階法、DDIMよりも速い代替手段です。

  1. DPMおよびDPM++シリーズ

これらのサンプラーはタグの利用率が高く、効果を高めるためにサンプリングステップを適切に拡大しますが、全体的な速度は遅いです。DPM++はDPMを改善したもので、より正確な結果をもたらしますが、速度は遅いです。

Karras: より少ないサンプリングステップでクリアな画像を生成し、アルゴリズムを最適化します。

  1. Restart: より少ないサンプリングステップを使用して、より短い時間で良い画像を生成します。

LCM: 迅速に画像を生成します。

*推奨使用:

  • Euler/Euler a: 高速、高品質で、ほとんどのシナリオに適しています。推奨ステップ数は15-30。

  • DPM++2M Karras: 収束性があり、速度が速く、品質が良い(15-25ステップ)。

  • DPM++SDE Karras: 収束性がなく、速度が遅いが、品質が良く、リアリスティックな画像に適しています。推奨ステップ数は10-15。

  • DPM++2M SDE Karras: 2MとSDEの中間のアルゴリズムで、収束性がなく、速度がわずかに速い。

  • DPM++ 2M SDE Heun Exponential: ホイン 指数関数:収束性がなく、画像が柔らかくクリアで、詳細が少ない。

  • DPM++ 3M SDE Karras

  • DPM++ 3M SDE Exponential: 2Mと同じ速度で、より多くのサンプリングステップが必要です。サンプリングステップが30を超える場合、より良い結果を得るためにテキスト強度(CFG)を下げます。

  • Restart: 非常に高速で、ドラフトの生成や概念検証にのみ適しており、非常に少ないステップで理想的な結果を得ることができます。

  • LCM: 「リアルタイムレンダリング」をわずか4ステップで実現できますが、画像品質は平均的であり、インスピレーションスケッチや初期コンセプトデザインの生成に適しています。

*注意

  1. モデル作成者によって推奨されるアルゴリズムを優先して使用し、最適な互換性と効果を保証してください。

  2. プラス記号がついたアルゴリズムを使用することを優先し、最適化されたアルゴリズムはプラス記号がないものより安定している傾向があります。

  3. 生成された画像にノイズ問題が生じた場合、異なるサンプラーを試してみてください。

サンプリングステップ

一般に、サンプリングステップの数が多いほど、画像の品質が向上します。しかし、通常25ステップ程度で高品質の画像を得ることができます。この点を超えてステップ数を増やしても異なる画像が生成される可能性はありますが、必ずしも品質が向上するわけではありません。また、高いサンプリングステップはより多くの時間を要します。ほとんどの場合、過度に高いサンプリングステップを設定する必要はなく、待ち時間が増えるだけです。

サンプリングステップが増えるにつれて、「女の子」の主要な形は比較的一貫していますが、髪の質、色、背景などの小さなディテールがステップの増加に伴って改善されます。したがって、サンプリングステップ数は自分のニーズに応じて調整する必要があります。

CFGスケール

プロンプトとの関連性:テキストの強度が高いほど、画像はプロンプトに近くなります。通常、7-10の範囲で設定されます。あまりにも高く設定すると、画像の崩壊を引き起こす可能性があります。生成された画像がプロンプトに従わない場合は、適切にテキスト強度を増やすことができます。

プロンプト:全身ショット、スーパーヒーローポーズ、バイオメカニカルスーツ、インフレータブル形状、エピックなバイオニック義肢を着用、傑作、複雑、バイオパンク未来的ワードローブ、高度に詳細、アートステーション、コンセプトアート、サイバーパンク、オクタンレンダー

シード

描画プロセス中、AIアートには大きな不確実性があります。各描画は、固定されたシード値に対応する一連のランダムな計算メカニズムを含んでいます。シード値を固定することで、描画結果のランダム性を制御することができます。

例えば、特定の生成画像に満足した場合、そのシード値をここに入力して同じ内容を再生産することができます。「ランダム」をクリックすると、シードはデフォルトの-1にリセットされますが、「カスタマイズ」では自由にシード値を入力できます。

同じパラメータ、プロンプト、シードを使用すると、同一の画像が生成されます。したがって、同じシードを使用して特定のパラメータを変更することで、元の特徴を持つ新しい画像を生成することができます。

*感情的な言葉のみを変更して、髪、服、背景などの他の特徴を変更せずに顔の表情を変えます。

Clip Skip

プロンプトはレイヤーごとに数字に変換され、コンバーターによって読み取られ、プロンプトの詳細な理解が進んでいきます。

例えば、プロンプトが「若い女の子、黒いドレスを着て、黒い帽子をかぶり、杖を持っている、魔女」という場合、クリップスキップが2に設定されていると、AIは黒いドレスや杖の概念を省略するかもしれません。クリップスキップの値が大きくなると、AIはプロンプトのより多くを省略します。

したがって、クリップスキップが1に設定されている場合、それは最後のレイヤーから画像を終了することを意味します。結果にはプロンプトの完全な説明が含まれます。終了が早ければ早いほど、プロンプトからの説明が少なくなり、最終結果の精度が低くなります。一般的には2に設定されます。

Clip Skipの目的は何ですか?

クリップスキップは、タイムリーにプロンプトの読み取りを終了させることで、オーバーフィッティングの状況に対処するのに役立ちます。画像がオーバーフィットされている場合、クリップスキップを増やすことができます。

クリップスキップの設定によって、AIアートの詳細とスタイルを調整し、最終結果をより柔軟かつ制御可能にし、さまざまな画像生成要件を満たすことができます。

プロンプト:最高品質、傑作、イラスト、美しい詳細な輝き、テキスタイルの陰影、absurdres、highres、ダイナミックな照明、複雑で詳細な、美しい目、[バックライティング]、顔の照明、(pov:1.3)、(1人の女の子、ソロ:1.5)、非対称バング、黒髪、(笑顔)、(ジーンズとシャツ)

Last updated