视频LoRA训练

视频Lora模型训练

前置视频处理

训练集视频的选取

视频内容统一,动作或者特效统一,主体不同。优先视频,可以做图片补充

画质高清且没有水印

视频数量

4-10个视频,即可。(不推荐直接使用图片训练)

帧率

视频处理成16fps,总长度81帧,一共5s(可以使用剪辑工具裁剪视频至5s,然后抽帧到16fps)

若少于5s的视频,以实际为准,如2s,3s都可以,但一定要处理成16fps

分辨率

480p左右效果就可以了,你还可以处理成320p加速训练。(分辨率太高训练会直接失败)

视频打标

自动打标

手动打标

要点:次要特征+主要特征

主要特征:所需要学习的动作特效,次要特征:视频的人物,在什么地方,做什么

示例:In the video, a woman wearing a black form suite is presented. The person raises her hand and showers colorful confetti in celebration with smile. The person then reveals a bikini, causing a b1k1n1 bikini up effect. The person continues celebrating, further showing the b1k1n1 bikini up effect.

红色字体前是对视频内容的描述,红色字体是对所学习的动作特效的概述(即红色字体为主要特征,其余为次要特征)

线上训练

视频模型介绍

混元视频

文生视频:hunyuanvideo-fp8

万象视频

文生视频:Wan2.1-14B

图生视频:Wan2.1-14B-480P,Wan2.1-14B-720P

文生视频与图生视频区别:参数调整中,模型效果预览提示词,文生视频仅需要输入与训练集标签相似的文字,即可生成样图预览

图生视频,需要输入图片以及相对应的提示词,才可以生成样图预览

线上参数设置

图生视频

图生视频:Wan2.1-14B-480P,Wan2.1-14B-720P(主要根据训练视频分辨率进行选择)

训练素材为216*320,小于480p分辨率,选择480p模型(720p和480p最终训练效果差距不大,推荐优先480p)

分辨率

具体尺寸

像素总数

480p

854*480

~41万

720p

1280*720

~92万

完成上传数据集

参数设置

截取帧率:在单个视频素材分段里截取帧率

例子:每段16帧率,截取帧率填9,即无法做到学习到每一帧

切片数量:将单个视频素材分段

例子:一个视频是5秒,每秒16帧,切片数量填5,那么每段视频即16帧率,如果填4,即每段为20帧率

单张次数:每个视频学习次数

循环轮次:在单张次数的基础上循环多少轮次

模型效果预览提示词:生成示例视频的提示词(根据数据集标签配合初始帧图片内容进行修改填写)

初始针:图生视频,所需要的图片,生成示例视频所需图片

高级参数设置

仅需修改:Flow Shift。

720p是5,480p是3【素材也必须是480p的】。

文生视频参数

文生视频参数与图生视频参数一致,时间步偏移,以默认参数为标准

模型选择

选择实时样图效果好的,符合训练集视频所展示的特效或者动作。

模型测试

图生视频测试

kijai工作流 : kj 万象测试.json

快应用测试 :SeaArt AI AI | kj 万象测试

参数设置

模型选择:训练所选模型与测试模型一致

选择Lora:在自己模型里选择保存的Lora

权重:Lora的权重

宽:输入图片后被压缩裁剪后的尺寸

高:输入图片后被压缩裁剪后的尺寸

帧树:输出秒数的帧率总和(即4*n+1,n代表秒数,5秒81帧)

位移:720p是5,480p是3

cfg:cfg默认是6,可以调为5。

官方工作流:万象官流.json

快应用测试:SeaArt AI AI | 万象官流

cfg默认是6,可以调为5。

采样器为uni-pc,调度器可以是normal和simple。

采样器dpmpp_2m, 调度器sgm_uniform

注:其余参数与kj参数设置一致

文生视频测试

万象创作流测试

模型:选择wan2.1

附加:选择训练完成保存的模型

选择文生视频

混元创作流测试

模型:Hunyuan Video

附加:选择训练完成保存的模型

选择文生视频

Last updated