2-3 コントロールネット

ControlNetでAI画像生成をマスターしましょう。プリプロセッサ、動作原理、および美しいAIアートを作成する方法について学びます。

ControlNetとは何ですか？

ControlNetは、AI画像生成を制御するためのプラグインです。「Conditional Generative Adversarial Networks（CGANs）」という技術を使用して画像を生成します。従来の生成的敵対ネットワークとは異なり、ControlNetでは、線画をアップロードしてAIに着色させたり、キャラクターのポーズを制御したり、画像の線画を生成するなど、生成される画像を細かく制御できます。

従来の描画モデルとは異なり、完全なControlNetはプリプロセスモデルControlNetの2つの部分で構成されます。

プリプロセスモデル：元の画像から空間的意味情報を抽出し、線画や深度マップなどの視覚的プレビュー画像に変換します。

ControlNet: 線や被写界深度などの基本的な構造情報を処理します。

Canny

基本情報

Cannyモデルは、主に入力画像のエッジ情報を識別し、アップロードされた画像から正確な線画を抽出することができます。その後、指定されたプロンプトに基づいて、元の画像の構成に一致する新しいシーンを生成します。

Before and after comparison of using the Canny model to process a 3d cartoon image

プリプロセッサ:

canny: ハードエッジ検出。

invert: 線画の色を白背景の黒線に反転させます。

Before and after comparison of using the Canny model to process a sketch image

invertはCannyに固有のものではなく、ほとんどの線画モデルと組み合わせて使用できます。Line ArtやMLSD t認識などのControlNetタイプを選択すると、invertが使用可能です。

操作方法

操作手順：

画像をアップロード - モデルを選択 - ControlNetタイプを選択 - プロンプトを入力 - 生成

スマート分析：

画像のプロンプトとモデルを逆推論します。元の画像と異なるスタイルを希望する場合は、インテリジェント分析をオフにすることをお勧めします。

パラメータ設定：

プリプロセッサ像度

プリプロセッサ像度はプレビュー画像の出力解像度に影響します。画像のアスペクト比は固定されており、デフォルトの出力は1倍の画像です。解像度の設定は基本的にプレビュー画像の横サイズを決定します。例えば、元の画像サイズと目標画像サイズの両方が512x768の場合、プリプロセッサ像度を128、256、512、1024に設定すると、プリプロセッサ画像のサイズはそれぞれ128x192（元の0.25倍）、256x384（元の0.5倍）、512x768（元のサイズ）、1024x1536（元の2倍）に変わります。

一般的に、解像度の設定が高いほど、生成される画像の詳細が豊かになります。

*時々、前処理検出画像と最終画像のサイズが一致しない場合、描画された画像が破損し、最終描画の人物のエッジに明確なピクセル化が生じることがあります。

コントロールウエイト

ControlNetの強度を決定します。強度が高いほど、画像効果に対する制御が強くなり、生成された画像が元の画像に近くなります。

コントロールモード

ControlNetとプロンプトワード間の重みの割合を切り替えるために使用されます。デフォルト設定はバランスです。

よりプロンプトに従って画像を生成します: 制御図の効果が弱まります。

より前処理画像に従って画像を生成します: 制御図の効果が強まります。

生成結果

生成された結果から、基本的な構成は元の画像と全く同じですが、詳細は完全に異なることがわかります。髪の色、顔の詳細、衣服など、他の変更が必要な場合は、キーワードやパラメータを調整して望む効果を得ることができます。

Four examples of AI-generated superman images with different models

OpenPose Full

基本情報

OpenPose Fullは、人間の体の動きや表情の特徴を正確に制御することができます。これは、1人のポーズを生成するだけでなく、複数人のポーズを生成することも可能です。

OpenPose Fullは、頭、肩、肘、膝などの人間の体の重要な構造点を識別し、服装、髪型、背景の詳細を無視しながら、ポーズや表情を忠実に再現します。

プリプロセッサ

人間のポーズ認識

デフォルトのプロセッサはopenposeシリーズから来ており、openpose、face、faceonly、full、handがあります。これらの5つの前処理装置は、それぞれ顔の特徴、手足、手、その他の人体構造を検出するために使用されます。

動物のポーズ認識

動物_openposeプロセッサの使用をお勧めします。これは、control_sd15_animal_openpose_fp16などの専門的な前処理モデルと組み合わせて使用できます。

一般的には、デフォルトのopenpose_full前処理装置を使用するだけで十分です。

Different examples of AI images with one pose

Line Art

基本情報

線画も画像からエッジの線画を抽出することに関するものですが、その使用ケースはより具体的で、リアルとアニメの2つの方向があります。

プリプロセッサ

Line Art

リアルな画像により適しており、抽出された線画はより復元的で、検出中にエッジの詳細をより多く保持し、そのためコントロール効果がより顕著です。

Line Art Anime

比較的ランダム性が高いです。

Line Art と Canny の違い

Canny: ハードな直線、均一な太さ。

Line Art: 明らかな筆跡、手描きの下書きに似ており、異なるエッジの下での太さの変化を明確に観察できる。

Line Artはより多くの詳細を保持し、比較的柔らかい画像となり、線画の彩色機能により適しています。

Cannyはより正確で、画像の内容を簡略化します。

Comparison of images processed by Line Art and Canny

*Line Artは下書き画像の彩色に使用でき、下書きを完全にフォローします。

Depth

基本情報

Depth（深度）または距離画像は、シーン内のオブジェクトの三次元的な深さ情報を直感的に反映します。Depthは白黒で表示され、カメラに近いオブジェクトほど色が明るく（白く）、遠いほど色が暗く（黒く）なります。

Comparison of the original image and the image processed with Depth

Depthは、画像からオブジェクトの前景と背景の関係を抽出し、深度マップを作成して画像描画に適用できます。したがって、シーン内のオブジェクトの階層関係を明確にする必要がある場合、深度検出は強力な補助ツールとなります。

より良い画像出力結果を達成するために、depth_midasプリプロセッサを使用することをお勧めします。

Comparison of the original image, depth image and result image

Normal Bae

基本情報

Normal Baeは、シーン内の光と影の情報に基づいて法線マップを生成し、オブジェクトの表面の質感をシミュレートし、シーンの内容のレイアウトを正確に復元します。そのため、モデル認識はオブジェクト表面のよりリアルな光と影のディテールを反映するために使用されます。以下の例では、モデル認識で描画した後、シーンの照明と影の効果が大幅に改善されているのがわかります。

使用する際には、より顕著な照明と影の効果の改善を得るためにnormal_baeプリプロセッサを選択することをお勧めします。

Comparison of the original image, Normal Bae image and result image

Segmentation

基本情報

Segmentationは、シーンを異なるブロックに分割し、コンテンツの輪郭を検出しながらこれらのブロックにセマンティックアノテーションを割り当てることができるため、画像のより正確な制御を実現できます。

以下の画像を観察すると、セマンティックセグメンテーション検出後の画像には異なる色のブロックが含まれているのがわかります。シーン内の異なる内容には異なる色が割り当てられており、例えば、赤で示されたキャラクター、茶色の地面、ピンクの看板などです。画像生成時には、モデルは対応する色ブロック範囲内で特定のオブジェクトを生成し、より正確なコンテンツの復元を実現します。

使用する際には、デフォルトのseg_ufade20kプリプロセッサを選択することをお勧めします。ユーザーはプリプロセッシング画像に色ブロックを塗りつぶすことで画像の内容を変更することもできます。