Treinamento de Imagens

Conceito de LoRA

LoRA permite o ajuste fino de características específicas da imagem sem modificar os pesos do Checkpoint base (Ponto de verificação base). Isso significa que você pode gerar resultados de imagem direcionados apenas ajustando o LoRA, em vez de re-treinar todo o modelo.
Atualmente, o treinamento de LoRA é normalmente realizado em modelos base oficiais como SD1.5, SDXL, PONY, ILLUSTRIOUS, FLUX, SD3.5. O refinamento também pode ser feito em modelos criados pela comunidade.
Como funciona o treinamento LoRA: A IA primeiro gera imagens com base nos prompts. Estas são então comparadas com as imagens do seu conjunto de dados. O sistema ajusta gradualmente os vetores de embedding (incorporação) com base nas diferenças, guiando a IA a produzir resultados cada vez mais semelhantes ao conjunto de dados. Eventualmente, o modelo pode gerar imagens quase idênticas em estilo ou tema ao conjunto de dados, construindo uma forte conexão associativa.

Fluxo de Trabalho do Treinamento de LoRA

Cinco etapas: Preparar conjunto de dados → Pré-processamento de imagens → Definir parâmetros → Monitorar treinamento → Concluir treinamento

Conjunto de Dados

Conjuntos de dados de alta qualidade são fundamentais para um treinamento eficaz do modelo. Os conjuntos de dados de treinamento são a fonte dos nossos modelos, e usar o tamanho, a marcação e a edição corretos é crucial para criar bons conjuntos de dados.

Normalmente, 20 a 40 imagens são suficientes para muitos tipos de LoRA, mas o treinamento de modelos de estilo requer mais imagens para melhor generalização. Mais imagens nem sempre são melhores; adicionar materiais de baixa qualidade pode reduzir a qualidade do modelo.
Os materiais podem ser encontrados em sites de imagens ou criados usando geração de imagens por IA. Em ambos os casos, materiais de baixa qualidade devem ser evitados.

Materiais de baixa qualidade geralmente apresentam estas características: cenas muito escuras para identificar, composição inadequada, imagens pouco nítidas, detalhes difíceis de replicar, elementos principais/secundários pouco claros, detalhes difíceis de repetir, presença de elementos irrelevantes, sujeitos inconsistentes com colagem de imagens, membros incorretos ou desalinhados.

O estilo do personagem a ser treinado deve ser idealmente semelhante ao estilo do Checkpoint escolhido, ou seja, personagens de anime devem usar Checkpoints de anime para treinamento.

Normalmente, 25-40 imagens do mesmo personagem são suficientes. Use imagens do mesmo personagem, mas com diferentes poses, ângulos, vistas, roupas, expressões, fundos, etc.

Exemplo de conjunto de dados com 30 imagens: 12 fotos de retrato, 4 fotos com fundo de praia, 4 fotos sorrindo, 6 fotos com roupas originais, 4 fotos de costas, 6 fotos de busto, 8 fotos de corpo inteiro, 6 fotos sentadas, 8-10 fotos em pé, etc.

Seleção de Conjunto de Dados de Estilo LoRA
O modelo de referência utilizado deve ser flexível ou semelhante ao estilo a ser treinado; estilos de ilustração devem usar Checkpoints do tipo flat para treinamento.

Todas as imagens devem ter o mesmo estilo (o estilo necessário para criar o LoRA).

Edição de Tags e Palavras de Ativação

Palavras de ativação devem ser usadas para que o LoRA funcione de forma ideal; elas são uma parte muito importante da fase de prompt.
Palavras de ativação são as chaves de ativação do LoRA, essencialmente tags que não estão escritas nos dados da imagem, mas são exibidas na imagem. As partes consistentes do LoRA devem ser identificadas por meio das palavras de ativação, não por suas tags.

Por exemplo, se o treinamento de personagem tem características fixas de cabelo, não há necessidade de anotar isso nas tags, permitindo que essas características se fundam na palavra de ativação. Para treinamento de estilo, as tags de vocabulário de estilo precisam ser removidas.

Marcação (Tagging)

Nome

wd1.4

deepbooru

blip

joy2

llava

Forma de Saída

Palavras

Linguagem Natural

Uso Principal

Especialização em Anime

Classificação de Imagens de Anime

Descrição Geral de Imagem

Uso do Modelo

1.5, il, pony

flux, xl

Limite (Threshold)

0.3-0.6

Limite: Valores mais baixos significam descrições mais detalhadas.

Pré-processamento de Imagem

Corte de Imagens

● Corte central: Recorta a área central da imagem.

● Corte por foco: Identifica automaticamente o principal objeto da imagem.

● Sem corte: Não recorta a imagem, deve ser usado com ARB bucketing (agrupamento de proporção arbitrária).

● Comparado ao corte central, o corte por foco preserva mais facilmente o sujeito do conjunto de dados, por isso é geralmente recomendado.

● Para LoRA do Stable Diffusion 1.5, recomenda-se 512x512, 512x768 e 768x512. Para LoRA de alta definição, pode-se usar 768x768.

● Para treinamento SDXL, Flux e Stable Diffusion 3.5, recomenda-se 1024x1024.

Criação e Upload do Conjunto de Dados

Você pode optar por enviar conjuntos de dados existentes (ou seja, o termo coletivo para imagens correspondentes e anotações de texto) ou enviar imagens para marcação e corte.

Conjuntos de dados enviados não podem ser recortados ou marcados automaticamente, mas as tags podem ser modificadas manualmente.

Após o upload das imagens (upload em lote suporta até 50 imagens por vez), você pode selecionar o método de corte, tamanho e método de marcação. Após a seleção, clique em Cortar/Marcar (aguarde até o processamento ser concluído para começar a ajustar os parâmetros para o treinamento).

Configurações de Parâmetros de Treinamento

● No topo está o tipo de modelo base (ou seja, o tipo de grande modelo sob o qual treinamos o LoRA).

● Modelo Base: Diferentes opções para cada tipo de modelo base.

● Repetição: Quantas vezes cada imagem é treinada.

● Época (Epoch): Quantos ciclos todas as imagens são treinadas.

● Prompt de Pré-visualização do Efeito do Modelo: Após o treinamento, cada modelo terá uma imagem de amostra; o prompt usado para gerar esta amostra é o prompt de pré-visualização do efeito do modelo.

Configurações Avançadas de Parâmetros

● Tamanho do Lote (Batch size): Refere-se ao número de amostras de dados enviadas ao modelo de uma vez. Ao definir como 4, o modelo processa 4 imagens por vez. Processar dados em lotes melhora a utilização de memória e a velocidade de treinamento. Normalmente, valores de Batch Size são potências de 2. Aumentar o Batch Size permite aumentar proporcionalmente a taxa de aprendizado, por exemplo, 2 vezes o batch_size pode usar o dobro da taxa de aprendizado do UNet, mas a taxa de aprendizado do TE não pode ser aumentada muito.

● Gradient Checkpointing (redução do uso de memória no treinamento): Algoritmo de treinamento que troca computação por VRAM, economizando memória, mas sacrificando um pouco de velocidade. Se o Batch Size for 1, está desligado; se for 2 ou mais, está ligado.

● ARB Bucketing (Agrupamento de Proporção Arbitrária): Usado para treinar com imagens de proporções não fixas (com ARB bucketing ativado, não é necessário corte. O ARB bucketing aumentará o tempo de treinamento. A resolução do bucket ARB deve ser maior que a resolução do material de treinamento).

● Resolução Mínima do Bucket ARB: Padrão é 256; a resolução da imagem enviada não pode ser menor que 256.

● Resolução Máxima do Bucket ARB: Padrão é 1024; a resolução da imagem enviada não pode ser maior que 1024. Você pode aumentar o valor para adicionar materiais com maior resolução.

● Passos de Resolução do Bucket ARB: Padrão é 64, o que é suficiente.

● Salvar a cada N Épocas: Salva modelos com base na contagem de ciclos. Por exemplo, determina o número final de LoRAs salvos. Se definido como 2 e Época for 10, então 5 LoRAs serão salvos no final.

● Taxa de Aprendizado (Learning Rate): Representa a intensidade com que a IA aprende o conjunto de dados. Taxas de aprendizado mais altas significam maior capacidade de aprendizado, mas podem levar a imagens inconsistentes. Recomenda-se aumentar gradualmente a partir de taxas mais baixas; a taxa sugerida é 0.0001.

● unet lr (taxa de aprendizado do UNet): Quando definido, a taxa de aprendizado não terá efeito. Recomenda-se 0.0001.

● text encoder lr (taxa de aprendizado do codificador de texto): Determina a sensibilidade às tags. Normalmente, é definido como 1/2 ou 1/10 do unet lr.

● Taxa de Aprendizado & Otimizador:

AdamW8bit

prodigy

Taxa de aprendizado

Taxa de aprendizado total 1e-4

Escala proporcional ao batch size

Todas as taxas de aprendizado definidas como 1

A taxa real se ajusta de forma adaptativa

Agendador de Taxa de Aprendizado

Cosine com reinício (restart)

Contagem de reinício não excedendo 4

Constante

LR warm up (Aquecimento da taxa de aprendizado)

Passos de aquecimento são 5%-10% do total de passos

● Rede: Valores Comuns

Network Rank Dim (Dimensão do posto da rede)

128

Network Alpha (Fator de ajuste da rede)

Definir este valor muito alto fará com que a IA aprenda profundamente e torne o modelo maior, capturando muitos detalhes irrelevantes, semelhante ao "overfitting".

● Shuffle Caption (Embaralhar legenda): Quando ativado, a ordem dos tokens do texto será embaralhada aleatoriamente durante o treinamento para melhorar a capacidade de generalização do modelo. Recomenda-se ativar.

● Keep N Tokens (Manter quantidade de palavras-chave): Geralmente escolha 1, para manter nossa primeira palavra de ativação com o maior peso.

● Noise Offset (Deslocamento de ruído): Adiciona ruído global durante o treinamento, melhorando o alcance de brilho das imagens (ou seja, pode gerar imagens mais escuras ou mais claras).

● Multires Noise Iterations (Iterações de ruído multirresolução): Define o número de iterações.

● Multires Noise Discount (Desconto de ruído multirresolução): Define a proporção pela qual o ruído diminui gradualmente com as iterações.

Nota: Como Noise Offset, Multires Noise Iterations e Multires Noise Discount exigem etapas extras para garantir a convergência, o tempo de treinamento será afetado.

Visualizar Registros de Treinamento

Visualize os registros de treinamento na tela de "Criação e upload do conjunto de dados" - na interface de "treinamento de LoRa", sob a opção "Lista de tarefas".

Selecione modelos sem problemas nas imagens de amostra e salve-os.

Clique no avatar da sua conta no canto superior direito para acessar a tela de trabalhos pessoais e selecione a guia Modelo para usar.

Teste do Modelo

O SeaArt sincronizará automaticamente o modelo base e o LoRA treinado.

Ative o número de Semente Fixa nas Configurações Avançadas e ajuste o peso do modelo para testar o efeito do modelo em diferentes pesos.

Assuntos no Treinamento LoRA

Overfitting/Underfitting

Overfitting (Sobreajuste): Quando o conjunto de dados é limitado ou a IA corresponde ao conjunto de dados com muita precisão, o LoRA gera imagens muito semelhantes ao conjunto de dados, resultando em baixa capacidade de generalização.

A imagem no canto superior direito é muito semelhante ao conjunto de dados à esquerda em aparência e pose.

Causas do Overfitting:

● Falta de conjunto de dados

● Configurações de parâmetros incorretas (tags, taxa de aprendizado, passos, otimizador, etc.)

Prevenção do Overfitting:

● Reduzir adequadamente a taxa de aprendizado.

● Reduzir o número de épocas.

● Reduzir a repetição.

● Usar treinamento de regularização.

● Aumentar o conjunto de dados.

Underfitting (Subajuste): O modelo não consegue aprender adequadamente as características do conjunto de dados durante o treinamento, resultando em imagens geradas que não correspondem bem ao conjunto de dados.

Causas do Underfitting:

● Baixa complexidade do modelo

● Características insuficientes

Prevenção do Underfitting:

● Aumentar adequadamente a taxa de aprendizado.

● Aumentar o número de épocas.

● Aumentar a repetição.

● Reduzir as restrições de regularização.

● Adicionar mais materiais de características (alta qualidade) ao conjunto de dados.

Conjunto de Dados Regular

Uma forma de evitar o sobreajuste de imagens é adicionar imagens adicionais para melhorar a capacidade de generalização do modelo. Conjuntos de dados regulares não devem ser muito grandes, caso contrário, a IA aprenderá demais o conjunto de dados regular, levando à inconsistência com o alvo original. Recomenda-se 10-20 imagens.

Por exemplo, em um conjunto de dados de retrato onde a maioria das imagens apresenta cabelo comprido, adicione imagens de cabelo curto ao conjunto de dados regular. Da mesma forma, se o conjunto de dados for composto inteiramente por imagens do mesmo estilo artístico, adicione imagens de estilos diferentes ao conjunto de dados regular para enriquecer o modelo. Conjuntos de dados regulares não precisam ser marcados ou cortados.

Classificação de Tipos de Modelos de Imagem

● SD1.5: Released in October 2022. The mainstream training size is 512*512. As a training base model, the training speed is fast, but the image quality is relatively average.

● Modelos comuns incluem:

majicMIX realistic

麦橘写实

Counterfeit-V3.0

GhostMix鬼混

XXMix_9realistic

● SDXL: Lançado em julho de 2023. O tamanho de treinamento padrão é 10241024. Como modelo base de treinamento, a velocidade é média e o efeito da imagem é melhor.

● Modelos comuns incluem:

Animagine XL V3 Series

XXMix_9realisticSDXL

Juggernaut XL

● Pony: Existem muitas versões, sendo a versão V6 XL lançada em janeiro de 2024 a mais popular. O tamanho de treinamento padrão é 10241024. Focado na geração de imagens em estilo cartoon e animal.

● Modelos comuns incluem:

WAI-ANI-NSFW-PONYXL

Prefect Pony XL

CyberRealistic Pony

● Illustrious: A versão V1.0 lançada em julho de 2024 é a mais popular. O tamanho de treinamento padrão é 10241024. Focado em fornecer capacidades de geração de imagens de alta qualidade em estilo anime e ilustração.

● Modelos comuns incluem:

WAI-NSFW-illustrious-SDXL

Prefectious XL NSFW

Illustrious-Anime Artist

● Nota: Modelos treinados em modelos base Illustrious e Pony podem ser usados sob os modelos SDXL.

● Flux: Lançado em agosto de 2024, baseado em uma nova arquitetura transformer, usando 12 bilhões de parâmetros, permitindo gerar imagens detalhadas e realistas.

O tamanho de treinamento padrão é 10241024, mas 512512 também produz bons resultados.

● Versões do modelo incluem: FLUX Pro, FLUX Dev, FLUX Schnell, FLUX GGUF, NF4

● Modelos comuns incluem:

SeaArt Infinity

STOIQO NewReality

MajicFlus麦橘超然

PreviousComo Criar um Conjunto de Dados para Treinamento NextTreinamento de Vídeos

Last updated 3 months ago