# Treinamento de Vídeos

### Pré-processamento de Vídeos <a href="#preprocessing-videos" id="preprocessing-videos"></a>

#### Seleção de Vídeos para Treinamento <a href="#selection-of-training-videos" id="selection-of-training-videos"></a>

* Use vídeos com conteúdo, ações ou efeitos visuais consistentes, mas com sujeitos principais diferentes.
* Dê prioridade ao uso de vídeos; imagens podem ser usadas como dados suplementares.
* Os vídeos devem ser em alta resolução e sem marcas d’água.

#### Quantidade de Vídeos <a href="#number-of-videos" id="number-of-videos"></a>

* De 4 a 10 vídeos são suficientes. (Treinamento apenas com imagens não é recomendado.)

#### Taxa de Quadros <a href="#frame-rate" id="frame-rate"></a>

* Converta os vídeos para 16fps, com um total de 81 quadros (ou seja, 5 segundos de duração).
* Você pode usar ferramentas de edição de vídeo para cortar os clipes para 5 segundos e depois extrair os quadros a 16fps.
* Vídeos mais curtos (por exemplo, 2s ou 3s) também são aceitáveis, mas devem ser processados para 16fps.

#### Resolução <a href="#resolution" id="resolution"></a>

* 480p funciona bem. Você também pode reduzir para 320p para acelerar o treinamento.
* (O treinamento provavelmente falhará se a resolução for muito alta.)

#### Tagueamento de Vídeo <a href="#video-tagging" id="video-tagging"></a>

Tagueamento Automático

<figure><img src="https://2001975340-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FH71dO7TuUPMHtPY8Ra8I%2Fuploads%2FRxK3WJPzoYCZwyJvOnAd%2FAutomatic%20Tagging.png?alt=media&#x26;token=76c3cd51-96b7-4c38-ac4a-74bb86b72f0d" alt=""><figcaption></figcaption></figure>

Tagueamento Manual

Pontos-chave: Características Secundárias + Características Principais

Características Principais: Ações/efeitos a serem aprendidos; Características Secundárias: Personagens do vídeo, onde estão, o que estão fazendo.

Exemplo: No vídeo, uma mulher vestindo um terno preto formal é apresentada. A pessoa levanta a mão e joga confetes coloridos em comemoração com um sorriso. Em seguida, a pessoa revela um biquíni, causando um efeito de “b1k1n1 bikini up”. A pessoa continua comemorando, mostrando ainda mais o efeito “b1k1n1 bikini up”.

A parte antes do texto em vermelho descreve o conteúdo do vídeo, e o texto em vermelho resume os efeitos de ação a serem aprendidos (ou seja, o texto em vermelho representa as características principais, o restante são características secundárias).

[3(2).mp4](https://drive.weixin.qq.com/s?k=AFUA3QfrAA83nXz9wHAXUA2wbXAPE)

#### Treinamento Online <a href="#online-training" id="online-training"></a>

**Introdução ao Modelo de Vídeo**

Hunyuan Video

Texto para vídeo: hunyuanvideo-fp8

Wan Video

Text-to-video: Wan2.1-14B

Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P

Diferença entre texto para vídeo e imagem para vídeo: No ajuste de parâmetros, para prompts de pré-visualização do efeito do modelo, texto para vídeo precisa apenas de texto semelhante às tags do conjunto de treinamento para gerar imagens de pré-visualização.

Imagem para vídeo requer inserir imagens e prompts correspondentes para gerar imagens de pré-visualização.

#### Configurações de Parâmetros Online <a href="#online-parameter-settings" id="online-parameter-settings"></a>

**Imagem para vídeo**

Imagem para vídeo: Wan2.1-14B-480P, Wan2.1-14B-720P (principalmente selecionado com base na resolução do vídeo de treinamento).

Para materiais de treinamento de 216320 (menos de 480p), escolha o modelo 480p (há pouca diferença no efeito final do treinamento entre 720p e 480p, então 480p é recomendado).

|           |                    |                         |
| --------- | ------------------ | ----------------------- |
| Resolução | Tamanho Específico | Total de Pixels         |
| 480p      | 854\*480           | Aproximadamente 410.000 |
| 720p      | 1280\*720          | Aproximadamente 920.000 |

Upload Completo do Conjunto de Dados

<figure><img src="https://2001975340-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FH71dO7TuUPMHtPY8Ra8I%2Fuploads%2FAP1TfUFRnU1xdAMf2kxT%2Fcomplete%20dataset%20upload.png?alt=media&#x26;token=2c859306-45a4-427e-85d2-5fdcf17bf9a2" alt=""><figcaption></figcaption></figure>

**Configurações de Parâmetros**

Quadros a Extrair: Número de quadros a extrair de um único segmento de vídeo.

Exemplo: Para cada segmento a 16fps, definir Quadros a Extrair como 9 significa que nem todos os quadros serão aprendidos.

Número de Fatias: Divisão de cada material de vídeo.

Exemplo: Para um vídeo de 5 segundos a 16fps, definir Número de Fatias como 5 significa que cada segmento tem 16 quadros; se definido como 4, cada segmento tem 20 quadros.

Vezes por Imagem: Número de vezes de aprendizado para cada vídeo.

Ciclos: Número de ciclos com base nas Vezes por Imagem.

Prompts de Pré-visualização do Efeito do Modelo: Prompt para gerar vídeo de exemplo (modifique com base nas tags do conjunto de dados combinadas com o conteúdo da imagem do quadro inicial).

Quadro inicial: Para imagem para vídeo, a imagem necessária para gerar o vídeo de exemplo.

<figure><img src="https://2001975340-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FH71dO7TuUPMHtPY8Ra8I%2Fuploads%2Fso0fnINtZtGcs2qTc2Mt%2Finicial%20frame.png?alt=media&#x26;token=e6ad4516-2cd4-4377-a78f-7a0be197e993" alt=""><figcaption></figcaption></figure>

**Configurações Avançadas de Parâmetros**

A única configuração a ser modificada: Flow Shift.

720p é 5, 480p é 3 \[os materiais também devem ser 480p].

<figure><img src="https://2001975340-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FH71dO7TuUPMHtPY8Ra8I%2Fuploads%2FSO650n31txkgVrK9VJ2n%2Fadvanced%20parameter%20configurations.png?alt=media&#x26;token=33613f19-9862-4288-bd76-68cabc9103f6" alt=""><figcaption></figcaption></figure>

**Parâmetros de Texto para Vídeo**

Os parâmetros de texto para vídeo são consistentes com os de imagem para vídeo. Flow Shift segue os parâmetros padrão.

**Seleção de Modelo**

Escolha aquele com boas imagens de amostra em tempo real que correspondam aos efeitos ou ações mostrados nos vídeos do conjunto de treinamento.

#### Testes de Modelo <a href="#model-testing" id="model-testing"></a>

**Teste de Imagem para Vídeo**

Fluxo de trabalho de kijai: [kj wan testing.json](https://drive.weixin.qq.com/s?k=AFUA3QfrAA8Q0yaG1PAXUA2wbXAPE)

Teste de App de IA: [SeaArt AI AI | kj wan testing](https://www.seaart.ai/zhCN/workFlowAppDetail/d1e017de878c73eofvrg)

<figure><img src="https://2001975340-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FH71dO7TuUPMHtPY8Ra8I%2Fuploads%2FY6KqRYKNKFved6I8mnIM%2Ffluxo%20de%20trabalho%20kj.png?alt=media&#x26;token=aac16594-1109-4d57-910c-1ba7a04314fe" alt=""><figcaption></figcaption></figure>

Configurações de Parâmetros

Seleção de Modelo: O modelo de treinamento deve corresponder ao modelo de teste.

Selecionar LoRA: Escolha o LoRA salvo dos seus modelos.

Peso: Peso do LoRA.

Largura: O tamanho após a imagem de entrada ser comprimida e cortada.

Altura: O tamanho após a imagem de entrada ser comprimida e cortada.

Quadros: Contagem total de quadros para a duração de saída (calculado como 4n+1, onde n representa segundos; por exemplo, 5 segundos = 81 quadros).

Shift: 720p é 5, 480p é 3.

CFG: O cfg padrão é 6, pode ser ajustado para 5.

Fluxo de trabalho oficial: [wan official workflow.json](https://drive.weixin.qq.com/s?k=AFUA3QfrAA8xS1OCycAXUA2wbXAPE)

Teste de App de IA: [SeaArt AI AI | wan official workflow](https://www.seaart.ai/zhCN/workFlowAppDetail/d1e0fvte878c73bq8t80)

O cfg padrão é 6, pode ser ajustado para 5.

O sampler é uni-pc, o scheduler pode ser normal ou simples.

Sampler dpmpp\_2m, scheduler sgm\_uniform.

Nota: Outros parâmetros são consistentes com as configurações do parâmetro kj.

**Teste de Texto para Vídeo**

Teste do Fluxo de Criação Wan

<figure><img src="https://2001975340-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FH71dO7TuUPMHtPY8Ra8I%2Fuploads%2F53iOalKLPa7O0tumocc1%2Fteste%20de%20fluxo%20de%20criacao%20wan.png?alt=media&#x26;token=347e0549-16b3-457e-87c8-55b304339672" alt=""><figcaption></figcaption></figure>

Modelo: Selecione wan2.1.

Adicional: Selecione o modelo treinado salvo.

Selecione Texto para Vídeo.

Teste do Fluxo de Criação Hunyuan

<figure><img src="https://2001975340-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FH71dO7TuUPMHtPY8Ra8I%2Fuploads%2FtCZsingITz7ASsjLbadb%2Fmodelo%20de%20hunyuan.png?alt=media&#x26;token=dcc7461d-c05e-4914-a3f2-aefb7a51fac6" alt=""><figcaption></figcaption></figure>

Modelo: Hunyuan Video.

Adicional: Selecione o modelo treinado salvo.

Selecione Texto para Vídeo.
