Treinamento de Vídeos

Pré-processamento de Vídeos

Seleção de Vídeos para Treinamento

  • Use vídeos com conteúdo, ações ou efeitos visuais consistentes, mas com sujeitos principais diferentes.

  • Dê prioridade ao uso de vídeos; imagens podem ser usadas como dados suplementares.

  • Os vídeos devem ser em alta resolução e sem marcas d’água.

Quantidade de Vídeos

  • De 4 a 10 vídeos são suficientes. (Treinamento apenas com imagens não é recomendado.)

Taxa de Quadros

  • Converta os vídeos para 16fps, com um total de 81 quadros (ou seja, 5 segundos de duração).

  • Você pode usar ferramentas de edição de vídeo para cortar os clipes para 5 segundos e depois extrair os quadros a 16fps.

  • Vídeos mais curtos (por exemplo, 2s ou 3s) também são aceitáveis, mas devem ser processados para 16fps.

Resolução

  • 480p funciona bem. Você também pode reduzir para 320p para acelerar o treinamento.

  • (O treinamento provavelmente falhará se a resolução for muito alta.)

Tagueamento de Vídeo

Tagueamento Automático

Tagueamento Manual

Pontos-chave: Características Secundárias + Características Principais

Características Principais: Ações/efeitos a serem aprendidos; Características Secundárias: Personagens do vídeo, onde estão, o que estão fazendo.

Exemplo: No vídeo, uma mulher vestindo um terno preto formal é apresentada. A pessoa levanta a mão e joga confetes coloridos em comemoração com um sorriso. Em seguida, a pessoa revela um biquíni, causando um efeito de “b1k1n1 bikini up”. A pessoa continua comemorando, mostrando ainda mais o efeito “b1k1n1 bikini up”.

A parte antes do texto em vermelho descreve o conteúdo do vídeo, e o texto em vermelho resume os efeitos de ação a serem aprendidos (ou seja, o texto em vermelho representa as características principais, o restante são características secundárias).

3(2).mp4

Treinamento Online

Introdução ao Modelo de Vídeo

Hunyuan Video

Texto para vídeo: hunyuanvideo-fp8

Wan Video

Text-to-video: Wan2.1-14B

Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P

Diferença entre texto para vídeo e imagem para vídeo: No ajuste de parâmetros, para prompts de pré-visualização do efeito do modelo, texto para vídeo precisa apenas de texto semelhante às tags do conjunto de treinamento para gerar imagens de pré-visualização.

Imagem para vídeo requer inserir imagens e prompts correspondentes para gerar imagens de pré-visualização.

Configurações de Parâmetros Online

Imagem para vídeo

Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P (principalmente selecionado com base na resolução do vídeo de treinamento).

Para materiais de treinamento de 216320 (menos de 480p), escolha o modelo 480p (há pouca diferença no efeito final do treinamento entre 720p e 480p, então 480p é recomendado).

Resolução

Tamanho Específico

Total de Pixels

480p

854*480

Aproximadamente 410.000

720p

1280*720

Aproximadamente 920.000

Upload Completo do Conjunto de Dados

Configurações de Parâmetros

Quadros a Extrair: Número de quadros a extrair de um único segmento de vídeo.

Exemplo: Para cada segmento a 16fps, definir Quadros a Extrair como 9 significa que nem todos os quadros serão aprendidos.

Número de Fatias: Divisão de cada material de vídeo.

Exemplo: Para um vídeo de 5 segundos a 16fps, definir Número de Fatias como 5 significa que cada segmento tem 16 quadros; se definido como 4, cada segmento tem 20 quadros.

Vezes por Imagem: Número de vezes de aprendizado para cada vídeo.

Ciclos: Número de ciclos com base nas Vezes por Imagem.

Prompts de Pré-visualização do Efeito do Modelo: Prompt para gerar vídeo de exemplo (modifique com base nas tags do conjunto de dados combinadas com o conteúdo da imagem do quadro inicial).

Quadro inicial: Para imagem para vídeo, a imagem necessária para gerar o vídeo de exemplo.

Configurações Avançadas de Parâmetros

A única configuração a ser modificada: Flow Shift.

720p é 5, 480p é 3 [os materiais também devem ser 480p].

Parâmetros de Texto para Vídeo

Os parâmetros de texto para vídeo são consistentes com os de imagem para vídeo. Flow Shift segue os parâmetros padrão.

Seleção de Modelo

Escolha aquele com boas imagens de amostra em tempo real que correspondam aos efeitos ou ações mostrados nos vídeos do conjunto de treinamento.

Testes de Modelo

Teste de Imagem para Vídeo

Fluxo de trabalho de kijai: kj wan testing.json

Teste de App de IA: SeaArt AI AI | kj wan testing

Configurações de Parâmetros

Seleção de Modelo: O modelo de treinamento deve corresponder ao modelo de teste.

Selecionar LoRA: Escolha o LoRA salvo dos seus modelos.

Peso: Peso do LoRA.

Largura: O tamanho após a imagem de entrada ser comprimida e cortada.

Altura: O tamanho após a imagem de entrada ser comprimida e cortada.

Quadros: Contagem total de quadros para a duração de saída (calculado como 4n+1, onde n representa segundos; por exemplo, 5 segundos = 81 quadros).

Shift: 720p é 5, 480p é 3.

CFG: O cfg padrão é 6, pode ser ajustado para 5.

Fluxo de trabalho oficial: wan official workflow.json

Teste de App de IA: SeaArt AI AI | wan official workflow

O cfg padrão é 6, pode ser ajustado para 5.

O sampler é uni-pc, o scheduler pode ser normal ou simples.

Sampler dpmpp_2m, scheduler sgm_uniform.

Nota: Outros parâmetros são consistentes com as configurações do parâmetro kj.

Teste de Texto para Vídeo

Teste do Fluxo de Criação Wan

Modelo: Selecione wan2.1.

Adicional: Selecione o modelo treinado salvo.

Selecione Texto para Vídeo.

Teste do Fluxo de Criação Hunyuan

Modelo: Hunyuan Video.

Adicional: Selecione o modelo treinado salvo.

Selecione Texto para Vídeo.

Last updated