Como Criar um Conjunto de Dados para Treinamento

Um conjunto de dados de qualidade é fundamental para o treinamento eficaz do modelo. Este guia aborda como encontrar ou criar um para diferentes tipos de modelos.

O que é o Conjunto de Dados?

O conjunto de dados de treinamento é a fonte dos nossos modelos; é essencial usar o tamanho correto, etiquetagem e edição para criar um bom conjunto de dados.

  • Normalmente, 20 a 40 imagens são suficientes para muitos tipos de LoRAs, mas o treinamento de Checkpoint (Modelo) requer muito mais imagens (mínimo de 100, que é o máximo do conjunto de dados do SeaArt), então é recomendado focar apenas no treinamento de LoRAs no momento para economizar tempo e créditos. Se você pretende criar um LoRA detalhado, pode preferir usar mais imagens, mas lembre-se: mais imagens não significa um LoRA melhor. A melhor opção é escolher imagens variadas com o mesmo conteúdo para os nossos LoRAs.

  • O conjunto de dados pode ser encontrado em imagens da web, mas também pode ser criado via geração de imagens por IA. O conjunto de dados não deve conter partes erradas ou ruins, então é um pouco complicado usar IA para criar o conjunto de dados. No entanto, se você confia nas suas habilidades e sorte, está livre para criar o conjunto de dados com geração de imagens

Selecionando/Criando Imagens para o Conjunto de Dados

Existem diferentes tipos de LoRAs e eles exigem diferentes tipos de imagens, mas há alguns pontos importantes que se aplicam a todos os conjuntos de dados.

Posso usar algo que não pode ser gerado por IA?

As imagens devem ser algo que pode ser gerado por IA (não inclui o sujeito principal do LoRA). Por exemplo, se você quer criar um LoRA de personagem de um jogo, não tem problema se não conseguir gerar esse personagem com IA, mas é necessário que você consiga gerar aquela imagem específica com IA para obter os melhores resultados. Personagem: Frieren (não pode ser gerada com o modelo que você quer usar). O conjunto de dados deve ser composto por imagens que a IA poderia gerar se soubesse quem é a Frieren.

Exemplos

Imagem de Frieren em pé e sorrindo para o espectador

  • A IA pode criar personagens em pé e sorrindo, mesmo que não seja Frieren, então a imagem pode ser usada.

Retrato de Frieren com expressão triste

  • A IA pode criar o retrato de uma mulher com expressão triste, mesmo que não seja Frieren, então a imagem pode ser usada.

Imagem da parte superior do corpo de Frieren presa em um baú-monstro

  • Muitos modelos não conseguem criar corretamente a imagem de um humano preso em um baú-monstro, mesmo que não seja Frieren, então a imagem não pode ser usada para modelos que não conseguem gerar isso.

Se você quiser criar um LoRA de estilo, o estilo não é problema se a IA não conseguir gerar, mas ela deve ser capaz de gerar o assunto.

Estilo: Estilo sombrio, gótico (não pode ser gerado com o modelo que você quer usar).

Exemplos

Ilustração de um castelo com estilo sombrio, gótico

  • A IA pode gerar uma ilustração de castelo, mesmo que não seja o estilo desejado, então a imagem pode ser usada.

Imagem de uma maçã meio gato, meio ciborgue blindado com estilo sombrio, gótico

  • Muitos modelos falham ao gerar uma maçã meio gato, meio ciborgue blindado, mesmo que não seja o estilo desejado, então a imagem não pode ser usada.

Pode parecer absurdo, mas é muito importante para a etiquetagem correta e os melhores LoRAs vêm de conjuntos de dados corretamente etiquetados. O principal é: a imagem não deve incluir nenhuma parte confusa ou difícil de gerar, a menos que seja o assunto do seu LoRA.

Seleção de Conjunto de Dados para LoRA de Personagem

  • O estilo do seu personagem deve ser semelhante ao modelo que você quer usar. Por exemplo:

LoRA de Naruto em estilo anime em um modelo anime: o conjunto de dados deve conter imagens em estilo anime. LoRA de Luffy fotorrealista em um modelo fotorrealista: o conjunto de dados deve incluir imagens realistas do personagem, e não em estilo anime.

  • Normalmente, 25 a 40 imagens do personagem são suficientes, caso você não queira criar um LoRA com muitos detalhes. Usar muitas imagens pode resultar em LoRAs “overcooked”.

  • Use imagens do mesmo personagem com algumas variações de poses, ângulos, vistas, roupas, expressões, fundos, etc., e combine-as para criar imagens variadas.

Exemplo

Personagem: Luffy de One Piece

Pose: Em pé, sentado, poses de ação (pode ser acenando, sinal de paz com a mão, sorriso largo com olhos fechados ou qualquer coisa que desejar, mas deve ser algo que pode ser gerado por IA)

Ângulo/Visão: Vista frontal, meio corpo, corpo inteiro, retrato, vista de costas etc.

Roupas: Roupas originais do Luffy, roupa formal, camiseta e jeans, terno etc.

Expressões (recomendado usar apenas em retratos ou closes): Sorrindo, bravo, triste, confuso, tímido etc.

Fundo: Cidade, praia, mar, navio, casa etc.

Imagens

  • meio corpo, Luffy, sorrindo, em pé, roupa formal, praia

  • meio corpo, Luffy, triste, chorando, acenando para o observador, roupas originais, navio

  • corpo inteiro, Luffy, sentado, camiseta e jeans, casa ...

Depois de encontrar/criar imagens específicas com combinação de diferentes termos, agora você tem um bom conjunto de dados com várias imagens. Isso aumenta a flexibilidade e a capacidade de geração do LoRA.

Se você usar retrato em todas as imagens, vai forçar retratos e causar deformações em outros ângulos. Se usar roupas originais do Luffy em todas as imagens, tenderá a criar chapéu de palha, jaqueta vermelha etc. mesmo quando não quiser.

Se usar praia como fundo em todas as imagens, vai gerar imagens com fundo de praia mesmo sem pedir.

  • O ideal é usar um termo no máximo em 3-6 imagens. Ângulo/Visão pode ser usado mais, por exemplo:

O conjunto de dados com 30 imagens: 12 retratos, 4 com fundo de praia, 4 sorrindo, 6 com roupas originais, 4 de costas, 6 meio corpo, 8 corpo inteiro, 6 sentado, 8~10 em pé etc.

  • Tente encontrar/criar diferentes combinações, não use tags semelhantes para um termo só. Se criar seis imagens do Luffy com roupas originais e todas de costas, pode acabar gerando sempre de costas quando pedir roupas originais, ou sempre roupas originais quando pedir de costas, como jaqueta vermelha, chapéu de palha etc.

Seleção de Dataset para LoRA de Estilo

O modelo base que você vai usar deve ser flexível ou semelhante ao estilo que deseja criar.

  • O assunto deve ser algo que a IA pode criar.

  • Use várias imagens com assuntos diferentes, mas mesmo estilo.

  • 30-40 imagens são suficientes para um LoRA de estilo.

  • 15-20 imagens, se o estilo das imagens for consistente e semelhante. Pode ser usado para estilos como pixel art.

  • +50 imagens, se for criar um LoRA de estilo muito detalhado e flexível que pode ser usado em qualquer assunto. (Escolha assuntos diferentes sempre que possível)

Exemplo para dataset de 30-40 imagens, valores podem ser ajustados conforme o total de imagens.

Nota: Todas as imagens devem ter o mesmo estilo (estilo desejado para criar o LoRA)

Contagem de imagens sugerida por mim, dependendo do que as pessoas priorizam e geram com IA. Você pode mudar os valores para diferentes propósitos, mas se for criar um LoRA de estilo padrão, recomendo usar contagem semelhante.

  • 10-14 imagens de mulher (características, ângulos, visões, poses, roupas, fundos diferentes)

  • 8-10 imagens de homem (características, ângulos, visões, poses, roupas, fundos diferentes)

  • 6 imagens de paisagem/cenário com pelo menos 3 lugares diferentes (sem objeto principal)

  • Vários objetos com diferentes visões, pode ser fruta, carro, casa, caneta, fogo ou o que desejar. O importante é ter o mesmo estilo nas imagens. Bom para datasets grandes para aumentar a flexibilidade do LoRA.

Modo de Corte (Crop Mode)

O corte é importante para deixar nosso dataset no tamanho correto. Existem 3 opções de corte e cada uma tem efeitos diferentes.

Center Crop: Usa o centro da imagem como referência e corta para o tamanho correto.

Focus Crop: Usa o assunto principal como referência e corta para o tamanho correto.

No Crop: Não corta as imagens, pode ser usado se já estiverem no tamanho correto.

  • Focus Crop é recomendado para LoRAs de personagem, se as imagens não estiverem no tamanho correto.

Resolução

  • 512x512, 512x768, 768x512 são recomendados para LoRAs do Stable Diffusion 1.5. Você pode usar 768x768 se quiser criar um LoRA altamente detalhado.

  • 1024x1024 é recomendado para SDXL, Flux e treinamento do Stable Diffusion 3.5.

Marcação (Tagging) do Conjunto de Dados

A marcação é muito importante para melhores LoRAs, pode tomar um tempo, mas os resultados valem a pena.

Como funciona a marcação e o que significa?

Pode parecer confuso à primeira vista, mas é bem parecido com como fazemos prompts na geração de imagens. Basicamente:

  • Temos uma imagem no dataset, mas a IA não sabe o que é.

  • Adicionamos tags à imagem no dataset, basicamente criamos um prompt sem ordem específica para que a IA entenda e aprenda qual prompt (tags) criou aquela imagem. Por isso é recomendado usar coisas que podem ser geradas por IA, pois se a IA não for capaz de gerar aquela imagem com as tags dadas, você só vai ensinar algo que ela não pode gerar, causando muitas gerações erradas/deformadas.

  • Depois disso, a IA aprende as tags e a imagem para poder criar resultados semelhantes com seu dataset.

Algoritmo de Marcação

Podemos definir as tags manualmente ou usar um algoritmo de marcação para agilizar o processo. Existem dois algoritmos principais usados para criar datasets.

BLIP

Este sistema é mais parecido com linguagem natural, usa frases pequenas e incompletas para identificar as imagens. É recomendado para modelos baseados em SDXL e estilo fotorrealista. É a melhor opção para treinamentos Flux e SD3.5, mas marcar manualmente pode ser melhor se você tiver tempo e paciência.

Deepbooru

Um sistema de marcação que usa tags de sites booru (Danbooru, Safebooru, e621 etc.) para identificar as imagens. São termos específicos usados para marcar imagens nesses sites e têm um banco de dados grande. É recomendado para LoRAs baseados em SD1.5, especialmente para modelos de Anime/Furry/Cartoon.

Limite de Marcação (Tagging Threshold)

Pode ser usado entre 0-1, ajusta a quantidade de tags e o nível de descrição do algoritmo.

  • Valores baixos criam mais tags e tentam descrever todos os detalhes da imagem, o que parece bom, mas adiciona muitas tags desnecessárias ao banco de dados, o que não queremos.

  • Valores altos criam menos tags e identificam apenas detalhes gerais da imagem, podendo causar resultados ruins por falta de detalhes definidos.

  • Recomenda-se usar entre 0,5-0,8, dependendo do que você está fazendo e do quanto quer detalhar as imagens do dataset.

Edição de Tags e Uso de Palavra de Ativação

Infelizmente, o sistema de marcação automática não é 100% correto, então precisamos editar o banco de dados removendo tags desnecessárias e adicionando tags importantes. A parte mais essencial do LoRA são as trigger words, pois incluem os dados que queremos ensinar à IA.

Palavra de Ativação

A palavra de ativação deve ser usada para os LoRAs funcionarem melhor, é uma parte muito importante da fase de prompt.

A palavra de ativação é a chave de ativação dos LoRAs, basicamente são tags que não são escritas nos dados da imagem, mas aparecem na imagem. Partes consistentes do LoRA devem ser identificadas por palavra de ativação, não por suas próprias tags. Por exemplo, se nosso personagem tem cabelo amarelo e queremos fazer um LoRA dela, os dados de tag não devem incluir termos como cabelo amarelo, loira, para que a IA os associe à palavra de ativação.

Como devo editar as tags?

  • Primeiro, remova tags desnecessárias do LoRA, pode ser tag de detalhes pequenos como pinta, colar etc. Depende do que você prioriza e tenta criar.

  • Segundo, remova tags de detalhes consistentes. Se quiser um LoRA de personagem loira, remova termos como cabelo amarelo, loira. Se quiser um LoRA de ilustração a tinta, remova tags relacionadas a tinta, ilustração, estilo artístico etc.

  • Por fim, adicione tags importantes que descrevem a imagem, mas que não estejam relacionadas ao assunto principal do seu LoRA.

Por exemplo, adicione tags relacionadas a fundo, iluminação, desfoque, pose, expressão para um LoRA de personagem, ou adicione tags que descrevem o assunto principal da imagem com outros detalhes para um LoRA de estilo.

Fim do Guia

Agora seu conjunto de dados tem imagens corretamente preparados com tags importantes que descrevem a imagem como um prompt, para que a IA entenda o que criou aquelas imagens.

Além disso, sua palavra de ativação será o marcador de posição do assunto principal do seu LoRA (tags ausentes das imagens usadas), assim a IA aprenderá o que significa sua palavra de ativação e se educará sobre esse tópico.

Exemplo

LoRA: LoRA de personagem Naruto

Imagem: Naruto em pé na frente de uma árvore e sorrindo

Tags: 1boy, standing, tree, smiling etc.

Palavra de Ativação: Naruto

A palavra de ativação é o placeholder de todas as características específicas de Naruto, como cabelo amarelo, olhos azuis, marcas nas bochechas etc.

Não adicione essas características às tags para que a IA considere sua palavra de ativação como a chave de ativação dessas características.

É por isso que treinamos LoRAs: para tornar nossa palavra de ativação uma chave de ativação e uma palavra significativa.

Last updated