# 動画LoRAモデルトレーニング

### 事前動画処理

#### トレーニングセット動画の選択

動画内容を統一し、動作またはエフェクトを統一、主体は異なるもの。動画を優先し、画像で補完可能

高画質でウォーターマークなし

#### 動画数

4〜10個の動画で十分。（画像のみでの直接トレーニングは非推奨）

#### フレームレート

動画を16fpsに処理し、合計81フレーム、全体で5秒（編集ツールで動画を5秒に切り取り、16fpsで抽出）

5秒未満の動画は実際の長さでも可（2秒、3秒など）。ただし必ず16fpsでの処理が必要

#### 解像度

480p程度で効果は十分です。320pに処理してトレーニングを高速化することもできます。（解像度が高すぎるとトレーニング失敗の原因となる）

### 動画のラベル付け

自動ラベル付け

手動ラベル付け

ポイント：副次的特徴+主要特徴

主要特徴：学習させたい動作やエフェクト、副次的特徴：動画の人物、場所、行動

例：In the video, a woman wearing a black form suite is presented. The person raises her hand and showers colorful confetti in celebration with smile. <mark style="color:red;">**The person then reveals a bikini, causing a b1k1n1 bikini up effect. The person continues celebrating, further showing the b1k1n1 bikini up effect.**</mark>

黒字部分は動画内容の説明、赤字部分は学習する動作やエフェクトの概要（赤字が主要特徴、それ以外が副次的特徴）

{% embed url="<https://drive.weixin.qq.com/s?k=AFUA3QfrAA83nXz9wHAXUA2wbXAPE>" %}

### オンライントレーニング

#### 動画モデル紹介

hunyuan動画

テキストから動画生成：hunyuanvideo-fp8

Wan動画

テキストから動画生成：Wan2.1-14B

画像から動画生成：Wan2.1-14B-480P，Wan2.1-14B-720P

テキストから動画生成と画像から動画生成の違い：パラメータ調整時、モデル効果プレビュープロンプトにおいて、テキストから動画生成はトレーニングセットのラベルに類似したテキストを入力するだけでサンプル画像をプレビュー生成可能。画像から動画生成は画像と対応するプロンプトの両方の入力が必要で、その後サンプル画像をプレビュー生成可能。

### オンラインパラメータ設定

#### 画像から動画生成

画像から動画生成：Wan2.1-14B-480P，Wan2.1-14B-720P（主にトレーニング動画の解像度に基づいて選択）

トレーニング素材が216\*320で、480p解像度未満の場合、480pモデルを選択（720pと480pの最終トレーニング効果に大きな差はなく、480pを優先推奨）

| 解像度  | サイズ       | 総ピクセル数 |
| ---- | --------- | ------ |
| 480p | 854\*480  | \~41万  |
| 720p | 1280\*720 | \~92万  |

データセットのアップロードを完了

<figure><img src="https://1032308035-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FBZCjgc8P9tA3CJw4NnIH%2Fuploads%2FdZIDdLlIXxH52iBWgFPa%2Fimage.png?alt=media&#x26;token=06e2b8dc-5a9b-45c4-90af-8e4ed0895604" alt=""><figcaption></figcaption></figure>

#### パラメータ設定

抽出フレームレート：単一動画素材のセグメントからフレームレートを抽出

例：各セグメント16フレームレート、抽出フレームレート9を入力すると、すべてのフレームを学習することはできません

スライス数：単一動画素材をセグメント化

例：5秒の動画、毎秒16フレーム、スライス数5を入力すると、各セグメントは16フレームレート、4なら各セグメントは20フレームとなります

繰り返し数：各動画の学習回数

エポック数：繰り返しする学習の回数

モデル効果プレビュープロンプト：サンプル動画を生成するためのプロンプト（データセットのラベルと開始フレームの内容を参考に入力します）

開始フレーム：画像から動画生成に必要な画像、サンプル動画生成に必要な画像

#### 上級パラメータ設定

修正が必要なのは：Flow Shiftのみ

<mark style="color:red;">720pは5、480pは3（素材も480pである必要があります）</mark>

<figure><img src="https://1032308035-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FBZCjgc8P9tA3CJw4NnIH%2Fuploads%2F02X91ecO6pGlTDxVjNh4%2Fimage.png?alt=media&#x26;token=8b87d859-c936-4f90-817f-65e63a27c378" alt=""><figcaption></figcaption></figure>

#### テキストから動画生成パラメータ

テキストから動画生成と画像から動画生成は同じパラメータを使用し、タイムステップシフトはデフォルト値を基準とします

#### モデル選択

リアルタイムのサンプル効果が良好で、トレーニングセット動画のエフェクトや動作に適したものを選択します

### モデルテスト

#### 画像から動画生成のテスト

kijaiワークフロー ： [kj 万象测试.json](https://drive.weixin.qq.com/s?k=AFUA3QfrAA8Q0yaG1PAXUA2wbXAPE)

クイックアプリテスト ：[SeaArt AI AI | kj 万象测试](https://www.seaart.ai/zhCN/workFlowAppDetail/d1e017de878c73eofvrg)

パラメータ設定

モデル選択：トレーニングで選択したモデルとテストモデルを一致させる

LoRA選択：自分のモデルから保存するLoRAを選択

重み：LoRAの重み

幅：入力画像の圧縮切り取り後のサイズ

高さ：入力画像の圧縮切り取り後のサイズ

フレーム数：出力動画の総フレーム数（つまり4\*n+1、nは秒数、5秒なら81フレーム）

オフセット：720pは5、480pは3

cfg:デフォルト値6、5に調整可能

公式ワークフロー：[万象官流.json](https://drive.weixin.qq.com/s?k=AFUA3QfrAA8xS1OCycAXUA2wbXAPE)

クイックアプリテスト：[SeaArt AI AI | 万象官流](https://www.seaart.ai/zhCN/workFlowAppDetail/d1e0fvte878c73bq8t80)

cfgデフォルトは6、5に調整可能

サンプラーはuni-pc、スケジューラはnormalとsimpleが使用可能

サンプラーdpmpp\_2m、スケジューラsgm\_uniform

ご注意：その他のパラメータはkjパラメータ設定と一致

#### テキストから動画生成テスト

Wan創作フローテスト

モデル：wan2.1を選択

追加：トレーニング完了後に保存したモデルを選択

テキストから動画生成を選択

hunyuan創作フローテスト

モデル：Hunyuan Video

追加：トレーニング完了後に保存したモデルを選択

テキストから動画生成を選択
