2-1 Text to Image
テキストから画像への生成とは何か、そして簡単なステップバイステップの指示でAIテキストから画像生成ツールを使用する方法を学びましょう。
Last updated
テキストから画像への生成とは何か、そして簡単なステップバイステップの指示でAIテキストから画像生成ツールを使用する方法を学びましょう。
Last updated
SeaArtを使用中に、コントロール効果が理想的でない、または描画結果が追加したプロンプトを反映していないといった問題に直面したことがありますか?この記事では、テキストから画像への操作方法を包括的に紹介し、効率的なプロンプトワードの書き方を習得するための戦略を説明します。
SeaArt AIには、Text to Image、Image to Image、コントロールネットの3つの描画モードがあります。テキストから画像モードには、デフォルト、SDXL、スタジオの3つの方法が含まれます。
描画の基本手順は、モデルの選択→プロンプトの入力→パラメータの設定→生成です。
モデルはスタイルを決定し、プロンプトは画像の内容を定義し、パラメータは画像の設定特性を細かく調整します。
プロンプトとは何ですか?
AIをより効果的に誘導するために、モデルの行動を制約するためにポジティブまたはネガティブなフィードバックを提供する方法が探求されてきました。この誘導情報はプロンプトと呼ばれ、人間とAIの橋渡しの役割を果たします。
プロンプトの基本構文
プロンプトには、望ましい画像内容を記述するポジティブプロンプトと、画像に望ましくない内容を示すネガティブプロンプトが含まれます。
プロンプトの編集に慣れていない場合は、ツール - プロンプト提示スタジオをクリックして、効率的なプロンプトの組み合わせを迅速に構築できます。
特定の詳細を理解しにくいモデルがある場合(例えば、手の構造)、ネガティブプロンプトはこれらの要素を避け、画像の品質を向上させるのに役立ちます。
例えば、以下を含めます:(bad hands, bad anatomy, bad body, bad face, bad teeth, bad arms, bad legs, deformities: 1.3)
プロンプトの入力:自然言語/フレーズ形式
自然言語:黒髪の少女が踊る
フレーズ形式:少女、黒髪、踊る
プロンプトの役割は、モデルの描画プロセスを誘導し、支援することであり、厳密な要件ではありません。入力が単なるカジュアルな文であっても、モデルはあなたのために画像を作成することができ、その結果はかなり良い場合もあります。
*豊富なプロンプトは、最終出力効果をより良く制御できます。後の微調整プロセスでは、特定のキーワードを迅速に変更し、その影響を確認することができます。
効果的なプロンプトは、AIアートジェネレーターにタスクを割り当てるようなものです。指示が曖昧で、「絵をデザインする」というだけで要素や目的を指定しない場合、結果は予測不可能になることが多いです。したがって、詳細で具体的な指示は、結果の品質と関連性を大幅に向上させることができます。
例えば、プロンプトが単に「少女」と入力するだけでは、少女の服装、シーン、カメラアングルなどは言及されておらず、AIはトレーニング中のモデルの履歴に基づいてしか実行できません。モデルの能力のおかげで、得られる描画結果は依然としてかなり良いですが、画面の内容に特定の要件がある場合、その効率は非常に低いです。
他の記述的な言葉を追加すると、画像ははるかに安定します。
理想的なプロンプトフォーミュラには、主な内容、環境背景、構図、画像設定、参照スタイルなどの要素が含まれており、それぞれが描画結果に異なる程度の影響を与えます。
*このフォーミュラは参考であり、すべてのプロンプト作成に対する厳格なルールではありません。まず主な内容の影響を特定し、その後、個々のニーズに応じて詳細を最適化します。
主な内容:主な内容は主題(人や動物)の衣装、表情、動作、物の素材などを説明します。複数の主題を一緒に生成することは問題を引き起こす可能性があります。それぞれの主題を個別に作成し、その後ControINet生成を使用して統合することをお勧めします。
環境背景:環境背景は、空の色、周囲、照明、色調などのシーンと補助要素を設定し、画像の雰囲気を強調し、テーマを際立たせます。
構図のショット:構図は、カメラのアングルと視点を調整し、被写界深度の強調やオブジェクトの配置などで視覚的なインパクトを大幅に高めます。
画像設定:画像設定には、ディテールの豊かさ、写真の品質、映画的な効果など、視覚的な表現力を高める用語が含まれます。画像の解像度とディテールレベルは主にサイズによって決まり、Upscaleなどの後処理技術でさらにディテールが強化されます。
参照スタイル:望ましい芸術スタイルやムードを説明します。例えば、アーティストの名前、芸術技法、時代、色などを挙げます。しかし、画像のスタイルは主にモデルによって決定されます。モデルが特定の芸術スタイルのキーワードでトレーニングされていない場合、それらを理解できないかもしれません。特定のスタイル要件がある場合、単にプロンプトを使用するよりも、そのスタイルでトレーニングされたモデルを使用する方が良い結果が得られることがあります。
創作:プロンプトの記述が難しい場合は、ホームページのAI生成画像からインスピレーションを得て、既存のパラメータとプロンプトワードをワンクリックで再利用して、作成プロセスを簡素化できます。
強調プロンプトは、カッコや数値を使用して特定のプロンプトの重みを制御します。重みの値が高いほど、モデルはそのプロンプトを優先し、その部分のレンダリングに集中します。結果として、最終的な画像には対応する情報がより多く反映されます。逆に、強調が少ない場合、その内容の表現が少なくなります。
重みを増加させる方法の一つは、カッコを使用することです。もう一つは数値を直接入力することで、後者が一般的に使用されるアプローチです。
プロンプトワードの重みを制御するためのカッコには3種類あります:
丸カッコ ( ):各層が元の重みを1.1倍に増加させます。
角カッコ [ ]:各層が元の重みを0.9倍に減少させます。
さらに、カッコは複数の層を重ねることができ、それぞれの層が一定の係数で重みを乗じます。
例えば、デフォルトでは、少女の服装は黄色とオレンジの組み合わせになります。しかし、「(((オレンジのコート)))」を使用すると、カッコが強調を示し、モデルのオレンジのコートの描写が強化され、最終的な画像ではコートにオレンジがより多く反映されます。
逆に、「[[オレンジのコート]]」を使用すると、角カッコが強調を減少させ、オレンジの要素が減少します。モデルは残りのキーワード「((黄色のコート))」を優先し、コートがより黄色く表示されます。
数値を直接入力して重みを制御します。
例えば、デフォルトでは髪の色は緑と赤で表示されます。「(green hair)」の後に重みを0.9と設定すると、緑の髪の部分の重みが元の値の0.9倍に減少することを意味します。同様に、緑の髪の重みを増やしたい場合は、1.1と入力するだけです。
*キーワードの重みの強調は0.1から100まで変動することができますが、極端な重みの値による影響の偏りを考慮して、最適な画像結果を得るためには重みを0.5から1.5の間に保つことをお勧めします。
具体的なパラメータ設定については、ここをクリックして詳細を確認してください。
✨4-パラメーター