データセットの作成方法

高品質なデータセットは、効果的なモデル訓練の鍵となります。このガイドでは、異なるモデルタイプに適したデータセットの見つけ方や作成方法について解説します。

データセットとは何か?

トレーニングデータセットはモデルの基礎となるもので、適切なサイズ、タグ付け、編集が施されたデータセットを使用することが、良好な結果を得るためには不可欠です。

通常、多くのタイプのLoRAには20~40枚の画像があれば十分ですが、チェックポイント(モデル)訓練にはさらに多くの画像が必要です(SeaArtのデータセットの最大数である100枚が最低限の目安です)。したがって、時間とクレジットを節約するために、現時点ではLoRAの訓練に集中することをお勧めします。詳細なLoRAを作成する場合は、より多くの画像を使用することを検討しても良いですが、「画像が多ければ良いLoRAになる」とは限りません。同じ内容のさまざまな画像を選択するのが最適です。

データセットはウェブ上の画像から見つけることができるだけでなく、AIによる画像生成でも作成することが可能です。ただし、データセットには誤った部分や不適切な部分が含まれていないことが重要であるため、AIを使用してデータセットを作成するのはやや難しい場合もあります。しかし、自身のスキルや運に自信がある場合は、画像生成を利用してデータセットを作成することも自由です。

データセット用画像の選択/作成

LoRAにはさまざまなタイプがあり、それぞれ異なるタイプの画像が必要ですが、すべてのデータセットに共通するいくつかの重要なポイントがあります。

AIで生成できないものを使用しても良いですか?

画像はAIで生成可能なものであるべきです。(LoRAのメインの対象は含まれません)例えば、ゲームキャラクターのLoRAを作成したい場合、そのキャラクターをAIで生成できなくても問題ありませんが、その特定の画像をAIで生成できるようにすることが最良の結果を得るためには重要です。

キャラクター例: フリーレン(使用したいモデルでは生成できないキャラクター)

データセットには、AIがフリーレンを知っていれば生成できるような画像を含める必要があります。

  • フリーレンが立って視聴者に微笑んでいる画像

    AIは、たとえフリーレンでなくても、立って微笑んでいるキャラクターを作成できるため、この画像は使用可能です。

  • 悲しい表情のフリーレンのポートレート

    AIは、たとえフリーレンでなくても、悲しい表情の女性のポートレートを作成できるため、この画像は使用可能です。

  • ミミック(箱型モンスター)に上半身が挟まれたフリーレンの画像

    多くのモデルでは、たとえフリーレンでなくても人間がミミックに挟まれるような画像を正確に作成できないため、このような画像は生成できないモデルには使用できません。

例えば、スタイルLoRAを作成したい場合、スタイルそのものは問題ありませんが、AIが対象を生成できる必要があります。

スタイル例: ダークでゴシックなスタイル(使用したいモデルでは生成できないスタイル)

  • ダークでゴシックなスタイルの城のイラスト

AIは、たとえ希望するスタイルでなくても城のイラストを生成できるため、この画像は使用可能です。

  • ダークでゴシックなスタイルの半分がリンゴで半分が猫の装甲サイボーグの画像

多くのモデルでは、たとえ希望するスタイルでなくても半分リンゴ・半分猫の装甲サイボーグを正確に生成するのが難しいため、この画像は使用できません。

少し奇妙に思えるかもしれませんが、正確なタグ付けのために非常に重要です。最良のLoRAは正確にタグ付けされたデータセットによって得られます。重要なポイントは、画像がLoRAの対象でない限り、混乱を招くような、生成が難しい部分を含んでいないことです。

キャラクターLoRA用データセットの選定

キャラクターのスタイルは、使用するモデルに類似している必要があります。例を挙げると:

アニメスタイルのナルトLoRAをアニメモデルで訓練する場合: データセットはアニメスタイルの画像である必要があります。

写実的なルフィLoRAを写実的なモデルで訓練する場合: データセットにはアニメスタイルではなく、写実的なルフィの画像を含める必要があります。

通常、詳細なLoRAを作成しない限り、キャラクターの画像は25~40枚で十分です。画像を多く使いすぎると、LoRAが「焼きすぎ」になることがあります。

同じキャラクターの異なるポーズ、角度、視点、衣装、表情、背景などを組み合わせた画像を使用して、多様な画像を作成してください。

  • キャラクター: 『ワンピース』のルフィ

  • ポーズ: 立っている、座っている、アクションポーズ(手を振る、ピースサイン、目を閉じて広く笑うなど、AIで生成可能なもの)

  • 角度/視点: 正面、上半身ショット、全身ショット、ポートレート、背面など

  • 服装: ルフィのオリジナルの服、フォーマルウェア、Tシャツとジーンズ、スーツなど

  • 表情(ポートレートやクローズアップビューのみ推奨): 笑顔、怒り、悲しみ、困惑、照れなど

  • 背景: 街、ビーチ、海、船、家など

画像例

  • 上半身ショット、ルフィ、笑顔、立っている、フォーマルウェア、ビーチ

  • 上半身ショット、ルフィ、悲しそう、涙、視聴者に手を振る、オリジナルの服、船

  • 全身ショット、ルフィ、座っている、Tシャツとジーンズ、家

異なる用語を組み合わせて特定の画像を見つけたり作成したりすることで、バラエティ豊かなデータセットが完成します。これにより、LoRAの柔軟性と生成能力が向上します。

全ての画像でポートレートを使用すると、他の角度での撮影に変形が生じやすくなります。 また、全ての画像でルフィのオリジナルの服を使用すると、望んでいない場合でも麦わら帽子や赤いジャケットのような服装が生成されやすくなります。

すべての画像でビーチを背景に使用すると、リクエストしなくてもビーチ背景の画像が生成されやすくなります。

「甘いポイント」は1つの用語を最大3~6枚の画像で使用することです。角度や視点は多めに使用しても構いません。例:

30枚のデータセットの場合: 12枚のポートレート、4枚のビーチ背景、4枚の笑顔の表情、6枚のオリジナルの服、4枚の背面、6枚の上半身、8枚の全身、6枚の座っている姿、8~10枚の立っている姿など

  • 異なる組み合わせを見つけたり作成したりして、1つの用語に対して同じタグを使用しないようにしてください。例えば、オリジナルの服を着たルフィの画像を6枚作成し、全てが背面であれば、オリジナルの服を使う際に背面が生成されやすくなったり、背面を生成する際に赤いジャケットや麦わら帽子といった服装が生成されやすくなる可能性があります。

スタイルLoRA用のデータセットの選定

  • 使用するベースモデルは、作成したいスタイルに柔軟性があり、似ているものを選ぶ必要があります。

  • 対象はAIが生成可能なものでなければなりません。

  • 異なる被写体であっても、同じスタイルの画像を使用してください。

  • 30~40枚の画像で、スタイルLoRAには十分です。

  • 画像のスタイルが自信を持って類似している場合、15~20枚でも使用可能です。ピクセルアートのようなスタイルにはこれで十分です。

  • 非常に詳細で柔軟なスタイルLoRAを作成する場合、+50枚の画像が必要です。この場合は、できるだけ異なる被写体を選ぶと良いでしょう。

30~40枚の画像データセットの例(総画像数に応じて値を調整できます)

注:すべての画像は同じスタイル(LoRAで作成したいスタイル)である必要があります。

画像数は、AI生成において優先されるテーマに基づいて、私が提案しています。目的に応じて値を変更できますが、標準的なスタイルのLoRAを作成する場合は、同程度の画像数を使用することを強くお勧めします。

  • 女性の画像10~14枚(異なる特徴、角度、視点、ポーズ、服装、背景)

  • 男性の画像8~10枚(異なる特徴、角度、視点、ポーズ、服装、背景)

  • 少なくとも3か所の異なる場所を含む風景/景観画像6枚(主要なオブジェクトを含まないもの)

  • 様々な角度の異なるオブジェクト(果物、車、家、ペン、炎など何でも可)重要なのは同じスタイルであること。LoRAの柔軟性を高めるために大規模なデータセットで効果的

クロップモード

クロップはデータセットを正しい解像度にするために重要です。3つの異なるクロップモードがあり、それぞれ異なる効果があります。

  • センター切り抜き:画像の中心を基準点として、正しいサイズにクロップします。

  • フォーカス切り抜き:主題を基準点として、画像を正しいサイズにクロップします。

  • 切り抜き不要:画像をクロップしません。画像が既に正しいサイズである場合に使用できます。

フォーカス切り抜きは、画像が正しいサイズでない場合のキャラクターLoRAに推奨されます。

解像度

512x512、512x768、768x512はStable Diffusion 1.5 LoRAに推奨されます。より詳細なLoRAを作成したい場合、768x768も使用可能です。

1024x1024はSDXL、Flux、およびStable Diffusion 3.5のトレーニングに推奨されます。

データセットのタグ付け

タグ付けはより良いLoRAを作成するために非常に重要です。少し時間がかかるかもしれませんが、その結果は時間をかける価値があります。

タグ付けはどのように機能し、何を意味するのでしょうか?

最初は混乱するかもしれませんが、実際には画像生成のプロンプトと非常に似ています。基本的に説明すると;

  • データセットに画像がありますが、AIはそれが何であるかを知りません。

  • 画像にタグを追加します。基本的に、AIがその画像を作成したプロンプト(タグ)を理解し学習できるように、順序を指定せずにプロンプトを作成します。また、AIが生成できない画像をAIに学ばせることは避けるべきです。なぜなら、AIがそのタグでその画像を生成できない場合、間違ったまたは変形した生成を引き起こすからです。

  • その後、AIはそのタグと画像を学び、それを基にデータセットで似たような結果を作成できるようになります。

タグ付けアルゴリズム

私たちは自分でタグを設定することもできますし、タグアルゴリズムを使用して、より速く、簡単にタグ付けを行うこともできます。データセット作成時に使用する2つの異なるタグ付けアルゴリズムがあります。

BLIP このシステムは自然言語に近く、画像を識別するために小さく不完全な文を使用します。SDXLベースのモデルとフォトリアルなスタイルのモデルに使用することをお勧めします。FluxおよびSD3.5のトレーニングには最適なオプションですが、自分でタグ付けを行う方が良い結果を得られるでしょう。十分な時間と忍耐があれば、手動でタグ付けする方が良いです。

Deepbooru booruウェブサイト(Danbooru、Safebooru、e621など)のタグを使用して画像を識別するタグシステムです。これらのウェブサイトで使用されている特定の用語があり、かなり大きなデータベースを持っています。SD1.5ベースのLoRA作成および特にアニメ、ファーリー、カートゥーンベースのモデルにはこのシステムの使用をお勧めします。

タグ付け閾値

0から1の間で使用でき、アルゴリズムのタグ数と説明レベルを調整します。

  • 低い値はタグを多く作成し、画像のあらゆる詳細を説明しようとします。これは良いように思えますが、データベースに不必要なタグが大量に追加され、私たちはそれを望んでいません。

  • 高い値はタグを少なくし、画像の一般的な詳細のみを識別します。タグ付けプロセスで詳細が定義されていない場合、悪い結果を引き起こす可能性があります。

  • 使用する値は、0.5~0.8の範囲が推奨されます。何を作成しているか、どれだけ詳細にデータセット画像をタグ付けしたいかによって異なります。

タグの編集とトリガーワードの使用

残念ながら、オートタグシステムは100%正確ではないため、不要なタグを削除し、重要なタグを追加してデータベースを編集する必要があります。LoRAの最も重要な部分はトリガーワードです。これは、AIに教えたいデータが含まれているため非常に重要です。

トリガーワード

トリガーワードは、最良のLoRAを作成するために使用される重要な要素であり、プロンプトの段階で非常に重要な役割を果たします。

トリガーワードはLoRAの起動キーであり、基本的に画像のデータに書き込まれていないタグですが、画像に表示されます。LoRAの一貫した部分は、タグではなくトリガーワードで識別されるべきです。たとえば、私たちのキャラクターには黄色い髪があり、そのキャラクターのLoRAを作成したい場合、タグデータには黄色い髪や金髪のような用語を含めてはいけません。これらはトリガーワードの一部として扱う必要があります。

タグをどのように編集するべきか?

  • まず最初に、LoRAから不要なタグを削除することが重要です。例えば、ほくろやネックレスのような小さなディテールのタグです。これらは、あなたが優先したいもの、そして作成しようとしているものに依存します。

  • 次に、一貫したディテールのタグを削除する必要があります。たとえば、金髪のキャラクターのLoRAを作成したい場合、黄色い髪や金髪のような用語を削除します。インクイラストスタイルのLoRAを作成したい場合、インク、イラスト、アートスタイルなどに関連するタグを削除します。

  • 最後に、画像を説明する重要なタグを追加しますが、これらはLoRAの主要な主題には関連しないものでなければなりません。

例えば、キャラクターのLoRAの場合、背景、照明、ぼかし、ポーズ、表情に関連するタグを追加します。また、スタイルのLoRAの場合は、画像の主題を説明する他のディテールとともにタグを追加します。

ガイドの終了

これで、あなたのデータセットは重要なタグが正しく付けられた画像で準備完了となり、プロンプトのように画像を説明するタグによってAIがその画像を理解できるようになります。

また、あなたのトリガーワードは、LoRAの主要な対象のプレースホルダー(使用した画像に不足しているタグ)となり、この方法でAIはトリガーワードが何を意味するのかを学び、このトピックについて教育されます。

LoRA: ナルトキャラクターLoRA

画像: ナルトが木の前に立って笑っている

タグ: 1boy, standing, tree, smiling など

トリガーワード: ナルト

トリガーワードは、ナルトの特徴(黄色い髪、青い目、頬のほくろなど)すべてのプレースホルダーです。

これらの特徴をタグに追加しないでください。そうすることで、AIはトリガーワードをこれらの特徴のアクティベーションキーとして認識します。

これがLoRAをトレーニングする理由です。トリガーワードをアクティベーションキーにし、意味のある言葉にするためです。

Last updated