2-3 コントロールネット

ControlNetでAI画像生成をマスターしましょう。プリプロセッサ、動作原理、および美しいAIアートを作成する方法について学びます。

ControlNetとは何ですか?

ControlNetは、AI画像生成を制御するためのプラグインです。「Conditional Generative Adversarial Networks(CGANs)」という技術を使用して画像を生成します。従来の生成的敵対ネットワークとは異なり、ControlNetでは、線画をアップロードしてAIに着色させたり、キャラクターのポーズを制御したり、画像の線画を生成するなど、生成される画像を細かく制御できます。

従来の描画モデルとは異なり、完全なControlNetはプリプロセスモデルControlNetの2つの部分で構成されます。

プリプロセスモデル:元の画像から空間的意味情報を抽出し、線画や深度マップなどの視覚的プレビュー画像に変換します。

ControlNet: 線や被写界深度などの基本的な構造情報を処理します。

Canny

基本情報

Cannyモデルは、主に入力画像のエッジ情報を識別し、アップロードされた画像から正確な線画を抽出することができます。その後、指定されたプロンプトに基づいて、元の画像の構成に一致する新しいシーンを生成します。

プリプロセッサ:

canny: ハードエッジ検出。

invert: 線画の色を白背景の黒線に反転させます。

invertはCannyに固有のものではなく、ほとんどの線画モデルと組み合わせて使用できます。Line ArtやMLSD t認識などのControlNetタイプを選択すると、invertが使用可能です。

操作方法

操作手順:

画像をアップロード - モデルを選択 - ControlNetタイプを選択 - プロンプトを入力 - 生成

スマート分析:

画像のプロンプトとモデルを逆推論します。元の画像と異なるスタイルを希望する場合は、インテリジェント分析をオフにすることをお勧めします。

パラメータ設定:

プリプロセッサ像度

プリプロセッサ像度はプレビュー画像の出力解像度に影響します。画像のアスペクト比は固定されており、デフォルトの出力は1倍の画像です。解像度の設定は基本的にプレビュー画像の横サイズを決定します。例えば、元の画像サイズと目標画像サイズの両方が512x768の場合、プリプロセッサ像度を128、256、512、1024に設定すると、プリプロセッサ画像のサイズはそれぞれ128x192(元の0.25倍)、256x384(元の0.5倍)、512x768(元のサイズ)、1024x1536(元の2倍)に変わります。

一般的に、解像度の設定が高いほど、生成される画像の詳細が豊かになります。

*時々、前処理検出画像と最終画像のサイズが一致しない場合、描画された画像が破損し、最終描画の人物のエッジに明確なピクセル化が生じることがあります。

コントロールウエイト

ControlNetの強度を決定します。強度が高いほど、画像効果に対する制御が強くなり、生成された画像が元の画像に近くなります。

コントロールモード

ControlNetとプロンプトワード間の重みの割合を切り替えるために使用されます。デフォルト設定はバランスです。

よりプロンプトに従って画像を生成します: 制御図の効果が弱まります。

より前処理画像に従って画像を生成します: 制御図の効果が強まります。

生成結果

生成された結果から、基本的な構成は元の画像と全く同じですが、詳細は完全に異なることがわかります。髪の色、顔の詳細、衣服など、他の変更が必要な場合は、キーワードやパラメータを調整して望む効果を得ることができます。

OpenPose Full

基本情報

OpenPose Fullは、人間の体の動きや表情の特徴を正確に制御することができます。これは、1人のポーズを生成するだけでなく、複数人のポーズを生成することも可能です。

OpenPose Fullは、頭、肩、肘、膝などの人間の体の重要な構造点を識別し、服装、髪型、背景の詳細を無視しながら、ポーズや表情を忠実に再現します。

プリプロセッサ

人間のポーズ認識

デフォルトのプロセッサはopenposeシリーズから来ており、openpose、face、faceonly、full、handがあります。これらの5つの前処理装置は、それぞれ顔の特徴、手足、手、その他の人体構造を検出するために使用されます。

動物のポーズ認識

動物_openposeプロセッサの使用をお勧めします。これは、control_sd15_animal_openpose_fp16などの専門的な前処理モデルと組み合わせて使用できます。

一般的には、デフォルトのopenpose_full前処理装置を使用するだけで十分です。

Line Art/Line Art Anime

基本情報

線画も画像からエッジの線画を抽出することに関するものですが、その使用ケースはより具体的で、リアルとアニメの2つの方向があります。

プリプロセッサ

Line Art

リアルな画像により適しており、抽出された線画はより復元的で、検出中にエッジの詳細をより多く保持し、そのためコントロール効果がより顕著です。

Line Art Anime

比較的ランダム性が高いです。

Line Art と Canny の違い

Canny: ハードな直線、均一な太さ。

Line Art: 明らかな筆跡、手描きの下書きに似ており、異なるエッジの下での太さの変化を明確に観察できる。

Line Artはより多くの詳細を保持し、比較的柔らかい画像となり、線画の彩色機能により適しています。

Cannyはより正確で、画像の内容を簡略化します。

*Line Artは下書き画像の彩色に使用でき、下書きを完全にフォローします。

Depth

基本情報

Depth(深度)または距離画像は、シーン内のオブジェクトの三次元的な深さ情報を直感的に反映します。Depthは白黒で表示され、カメラに近いオブジェクトほど色が明るく(白く)、遠いほど色が暗く(黒く)なります。

Depthは、画像からオブジェクトの前景と背景の関係を抽出し、深度マップを作成して画像描画に適用できます。したがって、シーン内のオブジェクトの階層関係を明確にする必要がある場合、深度検出は強力な補助ツールとなります。

より良い画像出力結果を達成するために、depth_midasプリプロセッサを使用することをお勧めします。

Normal Bae

基本情報

Normal Baeは、シーン内の光と影の情報に基づいて法線マップを生成し、オブジェクトの表面の質感をシミュレートし、シーンの内容のレイアウトを正確に復元します。そのため、モデル認識はオブジェクト表面のよりリアルな光と影のディテールを反映するために使用されます。以下の例では、モデル認識で描画した後、シーンの照明と影の効果が大幅に改善されているのがわかります。

使用する際には、より顕著な照明と影の効果の改善を得るためにnormal_baeプリプロセッサを選択することをお勧めします。

Segmentation

基本情報

Segmentationは、シーンを異なるブロックに分割し、コンテンツの輪郭を検出しながらこれらのブロックにセマンティックアノテーションを割り当てることができるため、画像のより正確な制御を実現できます。

以下の画像を観察すると、セマンティックセグメンテーション検出後の画像には異なる色のブロックが含まれているのがわかります。シーン内の異なる内容には異なる色が割り当てられており、例えば、赤で示されたキャラクター、茶色の地面、ピンクの看板などです。画像生成時には、モデルは対応する色ブロック範囲内で特定のオブジェクトを生成し、より正確なコンテンツの復元を実現します。

使用する際には、デフォルトのseg_ufade20kプリプロセッサを選択することをお勧めします。ユーザーはプリプロセッシング画像に色ブロックを塗りつぶすことで画像の内容を変更することもできます。

超高画質の再描画

Tile Resampleは、低解像度の画像を高解像度バージョンに変換し、品質の損失を最小限に抑えます。

三つのプリプロセッサ:tile_resample、tile_colorfix、およびtile_colorfixsharp。

*デフォルトのresampleは描画の柔軟性が高く、内容は元の画像と大きく変わりません。

MLSD

基本情報

MLSD認識は、シーンから直線エッジを抽出し、特にオブジェクトの線形幾何学的境界を描写するのに役立ちます。最も典型的な用途は、幾何学的建築やインテリアデザインなどの分野です。

Scribble HED

基本情報

Scribble HEDはクレヨンで描かれたような線画に似ており、画像効果の制御においてより自由度が高いです。

プリプロセッサ:HED、PiDiNet、XDoG、およびt2ia_sketch_pidi。

以下の画像からわかるように、最初の二つのプリプロセッサは、落書きの手描き効果により近い太いアウトラインを生成し、後者の二つはより細い線を生成し、リアルなスタイルに適しています。

*着色下絵として使用でき、ある程度のランダム性があります。

hed_safe

基本情報

HEDは、オブジェクトの周りに明確で正確な境界線を作成し、その出力はCannyに似ています。その効果は、詳細な特徴(表情、髪の毛、指など)を保持しながら、複雑なディテールや輪郭を捉える能力にあります。HEDプリプロセッサを使用すると、画像のスタイルや色を変更することができます。

Cannyと比較して、HEDはより柔らかい線を生成し、より多くの詳細を保持します。ユーザーは実際のニーズに基づいて適切なプリプロセッサを選択することができます。

color_grid

基本情報

プリプロセッサの使用により、カラーブロック処理の結果を取得できます。生成された画像は、元の色に基づいて再描画されます。

shuffle

基本情報

参照画像のすべての情報特徴をランダムにシャッフルし、それらを再結合することで、生成された画像は構造や内容などが元のものと異なる場合がありますが、スタイル的な関連性のヒントがまだ観察できます。

コンテンツ再結合の使用は、比較的制御安定性が低いため、広く普及していません。しかし、インスピレーションを得るために使用することは良い選択かもしれません。

Reference Generation

Basic Information

参照元のオリジナルに基づいて新しい画像を生成するには、デフォルトの「only」プリプロセッサを使用することをお勧めします。

コントロールウエイト: 値が高いほど、画像の安定性が強くなり、元の画像のスタイルの痕跡がより明確に保存されます。

recolor

画像の色を塗りつぶすことは、古い白黒写真の修復に非常に適しています。ただし、特定の位置に色が正確に表示されることは保証できず、色の汚染が発生する場合があります。

コントロールウエイト: 「intensity」および「luminance」、ここでは「luminance」が推奨されます。

ip_adapter

基本情報

アップロードされた画像を画像プロンプトに変換することで、参照画像の芸術的スタイルやコンテンツを認識し、類似の作品を生成できます。また、他のControINetと組み合わせて使用することもできます。

操作方法

  1. 生成する必要があるオリジナル画像Aをアップロードし、Canny、openpose、DepthなどのControINetオプションを選択します。

  1. 新しいControINet、ip_adapterを追加し、引き継ぎたいスタイル画像Bをアップロードし、最後に生成をクリックします。

結果: Bのスタイルを持つAの画像。

Last updated