Treinamento de Vídeos
Pré-processamento de Vídeos
Seleção de Vídeos para Treinamento
Use vídeos com conteúdo, ações ou efeitos visuais consistentes, mas com sujeitos principais diferentes.
Dê prioridade ao uso de vídeos; imagens podem ser usadas como dados suplementares.
Os vídeos devem ser em alta resolução e sem marcas d’água.
Quantidade de Vídeos
De 4 a 10 vídeos são suficientes. (Treinamento apenas com imagens não é recomendado.)
Taxa de Quadros
Converta os vídeos para 16fps, com um total de 81 quadros (ou seja, 5 segundos de duração).
Você pode usar ferramentas de edição de vídeo para cortar os clipes para 5 segundos e depois extrair os quadros a 16fps.
Vídeos mais curtos (por exemplo, 2s ou 3s) também são aceitáveis, mas devem ser processados para 16fps.
Resolução
480p funciona bem. Você também pode reduzir para 320p para acelerar o treinamento.
(O treinamento provavelmente falhará se a resolução for muito alta.)
Tagueamento de Vídeo
Tagueamento Automático

Tagueamento Manual
Pontos-chave: Características Secundárias + Características Principais
Características Principais: Ações/efeitos a serem aprendidos; Características Secundárias: Personagens do vídeo, onde estão, o que estão fazendo.
Exemplo: No vídeo, uma mulher vestindo um terno preto formal é apresentada. A pessoa levanta a mão e joga confetes coloridos em comemoração com um sorriso. Em seguida, a pessoa revela um biquíni, causando um efeito de “b1k1n1 bikini up”. A pessoa continua comemorando, mostrando ainda mais o efeito “b1k1n1 bikini up”.
A parte antes do texto em vermelho descreve o conteúdo do vídeo, e o texto em vermelho resume os efeitos de ação a serem aprendidos (ou seja, o texto em vermelho representa as características principais, o restante são características secundárias).
Treinamento Online
Introdução ao Modelo de Vídeo
Hunyuan Video
Texto para vídeo: hunyuanvideo-fp8
Wan Video
Text-to-video: Wan2.1-14B
Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P
Diferença entre texto para vídeo e imagem para vídeo: No ajuste de parâmetros, para prompts de pré-visualização do efeito do modelo, texto para vídeo precisa apenas de texto semelhante às tags do conjunto de treinamento para gerar imagens de pré-visualização.
Imagem para vídeo requer inserir imagens e prompts correspondentes para gerar imagens de pré-visualização.
Configurações de Parâmetros Online
Imagem para vídeo
Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P (principalmente selecionado com base na resolução do vídeo de treinamento).
Para materiais de treinamento de 216320 (menos de 480p), escolha o modelo 480p (há pouca diferença no efeito final do treinamento entre 720p e 480p, então 480p é recomendado).
Resolução
Tamanho Específico
Total de Pixels
480p
854*480
Aproximadamente 410.000
720p
1280*720
Aproximadamente 920.000
Upload Completo do Conjunto de Dados

Configurações de Parâmetros
Quadros a Extrair: Número de quadros a extrair de um único segmento de vídeo.
Exemplo: Para cada segmento a 16fps, definir Quadros a Extrair como 9 significa que nem todos os quadros serão aprendidos.
Número de Fatias: Divisão de cada material de vídeo.
Exemplo: Para um vídeo de 5 segundos a 16fps, definir Número de Fatias como 5 significa que cada segmento tem 16 quadros; se definido como 4, cada segmento tem 20 quadros.
Vezes por Imagem: Número de vezes de aprendizado para cada vídeo.
Ciclos: Número de ciclos com base nas Vezes por Imagem.
Prompts de Pré-visualização do Efeito do Modelo: Prompt para gerar vídeo de exemplo (modifique com base nas tags do conjunto de dados combinadas com o conteúdo da imagem do quadro inicial).
Quadro inicial: Para imagem para vídeo, a imagem necessária para gerar o vídeo de exemplo.



Configurações Avançadas de Parâmetros
A única configuração a ser modificada: Flow Shift.
720p é 5, 480p é 3 [os materiais também devem ser 480p].

Parâmetros de Texto para Vídeo
Os parâmetros de texto para vídeo são consistentes com os de imagem para vídeo. Flow Shift segue os parâmetros padrão.
Seleção de Modelo
Escolha aquele com boas imagens de amostra em tempo real que correspondam aos efeitos ou ações mostrados nos vídeos do conjunto de treinamento.

Testes de Modelo
Teste de Imagem para Vídeo
Fluxo de trabalho de kijai: kj wan testing.json
Teste de App de IA: SeaArt AI AI | kj wan testing

Configurações de Parâmetros
Seleção de Modelo: O modelo de treinamento deve corresponder ao modelo de teste.
Selecionar LoRA: Escolha o LoRA salvo dos seus modelos.
Peso: Peso do LoRA.
Largura: O tamanho após a imagem de entrada ser comprimida e cortada.
Altura: O tamanho após a imagem de entrada ser comprimida e cortada.
Quadros: Contagem total de quadros para a duração de saída (calculado como 4n+1, onde n representa segundos; por exemplo, 5 segundos = 81 quadros).
Shift: 720p é 5, 480p é 3.
CFG: O cfg padrão é 6, pode ser ajustado para 5.
Fluxo de trabalho oficial: wan official workflow.json
Teste de App de IA: SeaArt AI AI | wan official workflow

O cfg padrão é 6, pode ser ajustado para 5.
O sampler é uni-pc, o scheduler pode ser normal ou simples.
Sampler dpmpp_2m, scheduler sgm_uniform.
Nota: Outros parâmetros são consistentes com as configurações do parâmetro kj.
Teste de Texto para Vídeo
Teste do Fluxo de Criação Wan


Modelo: Selecione wan2.1.
Adicional: Selecione o modelo treinado salvo.
Selecione Texto para Vídeo.
Teste do Fluxo de Criação Hunyuan

Modelo: Hunyuan Video.
Adicional: Selecione o modelo treinado salvo.
Selecione Texto para Vídeo.
Last updated