Treinamento de Vídeos

Pré-processamento de Vídeos

Seleção de Vídeos para Treinamento

Use vídeos com conteúdo, ações ou efeitos visuais consistentes, mas com sujeitos principais diferentes.
Dê prioridade ao uso de vídeos; imagens podem ser usadas como dados suplementares.
Os vídeos devem ser em alta resolução e sem marcas d’água.

Quantidade de Vídeos

De 4 a 10 vídeos são suficientes. (Treinamento apenas com imagens não é recomendado.)

Taxa de Quadros

Converta os vídeos para 16fps, com um total de 81 quadros (ou seja, 5 segundos de duração).
Você pode usar ferramentas de edição de vídeo para cortar os clipes para 5 segundos e depois extrair os quadros a 16fps.
Vídeos mais curtos (por exemplo, 2s ou 3s) também são aceitáveis, mas devem ser processados para 16fps.

Resolução

480p funciona bem. Você também pode reduzir para 320p para acelerar o treinamento.
(O treinamento provavelmente falhará se a resolução for muito alta.)

Tagueamento de Vídeo

Tagueamento Automático

Tagueamento Manual

Pontos-chave: Características Secundárias + Características Principais

Características Principais: Ações/efeitos a serem aprendidos; Características Secundárias: Personagens do vídeo, onde estão, o que estão fazendo.

Exemplo: No vídeo, uma mulher vestindo um terno preto formal é apresentada. A pessoa levanta a mão e joga confetes coloridos em comemoração com um sorriso. Em seguida, a pessoa revela um biquíni, causando um efeito de “b1k1n1 bikini up”. A pessoa continua comemorando, mostrando ainda mais o efeito “b1k1n1 bikini up”.

A parte antes do texto em vermelho descreve o conteúdo do vídeo, e o texto em vermelho resume os efeitos de ação a serem aprendidos (ou seja, o texto em vermelho representa as características principais, o restante são características secundárias).

3(2).mp4

Treinamento Online

Introdução ao Modelo de Vídeo

Hunyuan Video

Texto para vídeo: hunyuanvideo-fp8

Wan Video

Text-to-video: Wan2.1-14B

Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P

Diferença entre texto para vídeo e imagem para vídeo: No ajuste de parâmetros, para prompts de pré-visualização do efeito do modelo, texto para vídeo precisa apenas de texto semelhante às tags do conjunto de treinamento para gerar imagens de pré-visualização.

Imagem para vídeo requer inserir imagens e prompts correspondentes para gerar imagens de pré-visualização.

Configurações de Parâmetros Online

Imagem para vídeo

Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P (principalmente selecionado com base na resolução do vídeo de treinamento).

Para materiais de treinamento de 216320 (menos de 480p), escolha o modelo 480p (há pouca diferença no efeito final do treinamento entre 720p e 480p, então 480p é recomendado).

Resolução

Tamanho Específico

Total de Pixels

480p

854*480

Aproximadamente 410.000

720p

1280*720

Aproximadamente 920.000

Upload Completo do Conjunto de Dados

Configurações de Parâmetros

Quadros a Extrair: Número de quadros a extrair de um único segmento de vídeo.

Exemplo: Para cada segmento a 16fps, definir Quadros a Extrair como 9 significa que nem todos os quadros serão aprendidos.

Número de Fatias: Divisão de cada material de vídeo.

Exemplo: Para um vídeo de 5 segundos a 16fps, definir Número de Fatias como 5 significa que cada segmento tem 16 quadros; se definido como 4, cada segmento tem 20 quadros.

Vezes por Imagem: Número de vezes de aprendizado para cada vídeo.

Ciclos: Número de ciclos com base nas Vezes por Imagem.

Prompts de Pré-visualização do Efeito do Modelo: Prompt para gerar vídeo de exemplo (modifique com base nas tags do conjunto de dados combinadas com o conteúdo da imagem do quadro inicial).

Quadro inicial: Para imagem para vídeo, a imagem necessária para gerar o vídeo de exemplo.