2-3 ControlNet
Domine a geração de imagens com IA usando ControlNet. Aprenda sobre seus pré-processadores, como funciona e como usá-lo para criar arte com IA impressionante.
O que é ControlNet?
ControlNet é um plugin usado para controlar a geração de imagens com IA. Ele emprega uma tecnologia conhecida como "Redes Adversárias Generativas Condicionais" (CGANs) para criar imagens. Diferentemente das Redes Adversárias Generativas tradicionais, o ControlNet permite aos usuários controlar finamente as imagens geradas, como carregar desenhos lineares para a IA colorir, ou controlar a postura de personagens, gerar desenhos lineares de imagens, etc.

Diferente dos modelos de desenho tradicionais, um ControlNet completo consiste em duas partes: um Modelo de Pré-processamento e um ControlNet.
Modelo de Pré-processamento: Responsável por extrair informações semânticas espaciais da imagem original e convertê-las em uma imagem de pré-visualização visual, como desenhos lineares, mapas de profundidade, etc.
ControlNet: Processa informações estruturais mais fundamentais como linhas e profundidade de campo.

Canny
Informações Básicas
O modelo Canny identifica principalmente informações de borda em imagens de entrada, capaz de extrair desenhos lineares precisos de imagens carregadas. Em seguida, gera novas cenas consistentes com a composição da imagem original baseadas em prompts especificados.

Pré-processador:
canny: Detecção de borda rígida.
invert: Inverte as cores para linhas pretas em fundo branco, revertendo as cores dos desenhos lineares.

invert não é exclusivo do Canny e pode ser usado em conjunto com a maioria dos modelos de desenho linear. Quando selecionamos tipos de ControlNet como Line Art ou reconhecimento MLSD, o invert está disponível.
Método de Operação
Sequência Operacional:
Carregar Imagem - Selecionar Modelo - Selecionar Tipo de ControlNet - Inserir Prompts – Criar
Análise Inteligente:
Inferir reversamente os prompts da imagem e o modelo. Se um estilo diferente da imagem original for desejado, é recomendado desativar a análise inteligente.
Configurações de Parâmetros:
Resolução de Pré-processamento
A resolução de pré-processamento afeta a resolução de saída da imagem de pré-visualização. Como a proporção da imagem é fixa, e a saída padrão é uma imagem 1x, a configuração de resolução essencialmente determina o tamanho horizontal da imagem de pré-visualização. Por exemplo, se o tamanho da imagem original e o tamanho da imagem alvo são ambos 512x768, quando definimos a resolução de pré-processamento para 128, 256, 512, 1024, o tamanho da imagem pré-processada mudará para 128x192 (0,25x original), 256x384 (0,5x original), 512x768 (original) e 1024x1536 (2x original), respectivamente.
Em geral, quanto maior a configuração de resolução, mais ricos os detalhes da imagem gerada.
*Às vezes, quando a imagem de detecção de pré-processamento e o tamanho final da imagem são inconsistentes, pode levar a imagens danificadas, com pixelização clara nas bordas das figuras no desenho final.

Peso de Controle
Determina a força do ControlNet. Quanto maior a intensidade, mais pronunciado o controle sobre o efeito da imagem, e mais próxima a imagem gerada fica do original.

Modo de Controle
Usado para alternar a proporção de peso entre ControlNet e as palavras do prompt. A configuração padrão é equilibrada.
Priorizar Prompts: O efeito do diagrama de controle será enfraquecido.
Priorizar Imagem de Pré-processamento: O efeito do diagrama de controle será aprimorado.
Resultados da Geração
Dos resultados gerados, pode-se ver que a composição básica é exatamente a mesma da imagem original, mas os detalhes são completamente diferentes. Se você precisar de imagens com outras mudanças, como cor do cabelo, detalhes faciais, roupas, etc., pode ajustar as palavras-chave e parâmetros para alcançar os efeitos desejados.

OpenPose Full
Informações Básicas
OpenPose Full pode alcançar controle preciso sobre movimentos do corpo humano e características de expressão facial. É capaz não apenas de gerar poses para uma única pessoa, mas também para múltiplas pessoas.
OpenPose Full pode identificar pontos estruturais chave do corpo humano como cabeça, ombros, cotovelos, joelhos, etc., ignorando detalhes de roupas, penteados e fundos, garantindo a reprodução verdadeira de poses e expressões.

Pré-processador
Reconhecimento de Pose Humana
Os processadores padrão são da série openpose, incluindo openpose, face, faceonly, full, hand. Esses cinco pré-processadores são usados para detectar características faciais, membros, mãos e outras estruturas do corpo humano, respectivamente.

Reconhecimento de Pose Animal
É recomendado usar o processador animal_openpose, que pode ser usado em conjunto com modelos de pré-processamento especializados, como control_sd15_animal_openpose_fp16.

Em geral, usar o pré-processador padrão openpose_full é suficiente.


Line Art
Informações Básicas
Line Art também é sobre extrair a arte linear de borda das imagens, mas seus casos de uso são mais específicos, incluindo duas direções: realista e anime.

Pré-processador
Line Art
Mais adequado para imagens realistas, a arte linear extraída é mais restaurativa, retendo mais detalhes de borda durante a detecção, assim o efeito de controle é mais significativo.

Diferença entre Line Art e Canny
Canny: Linhas retas rígidas, espessura uniforme.
Line Art: Traços óbvios de pincelada, similar a rascunhos reais feitos à mão, permitindo observação clara da transição de espessura sob diferentes bordas.
Line Art retém mais detalhes, resultando em uma imagem relativamente mais suave, e é mais adequado para funções de coloração de arte linear.
Canny são mais precisos e simplificam o conteúdo da imagem.

*Line Art pode ser usado para colorir imagens de rascunho, seguindo completamente o rascunho.
Depth
Informações Básicas
Depth, também conhecido como imagens de distância, reflete intuitivamente as informações de profundidade tridimensional dos objetos em uma cena. Depth é exibido em preto e branco; quanto mais próximo um objeto está da câmera, mais clara (branca) é sua cor; inversamente, quanto mais distante, mais escura (preta) é sua cor.

Depth pode extrair a relação de primeiro plano e fundo dos objetos de uma imagem, criar um mapa de profundidade e aplicá-lo ao desenho de imagens. Portanto, quando é necessário esclarecer a relação hierárquica dos objetos em uma cena, a detecção de profundidade pode servir como uma ferramenta auxiliar poderosa.
É recomendado usar o pré-processador depth_midas para alcançar melhores resultados de saída de imagem.

Normal Bae
Informações Básicas
Normal Bae envolve gerar um mapa normal baseado nas informações de luz e sombra na cena, simulando assim os detalhes da textura da superfície do objeto e restaurando com precisão a disposição do conteúdo da cena. Portanto, o reconhecimento do modelo é frequentemente usado para refletir detalhes mais realistas de luz e sombra nas superfícies dos objetos. No exemplo abaixo, você pode ver uma melhoria significativa nos efeitos de iluminação e sombra da cena após desenhar com reconhecimento do modelo.
Ao usar, é recomendado selecionar o pré-processador normal_bae para uma melhoria mais notável nos efeitos de iluminação e sombra.

Segmentation
Informações Básicas
Segmentation pode dividir a cena em diferentes blocos enquanto detecta contornos de conteúdo, e atribuir anotações semânticas a esses blocos, alcançando assim controle mais preciso sobre a imagem.
Observando a imagem abaixo, podemos ver que a imagem após detecção de segmentação semântica inclui diferentes blocos coloridos. Conteúdos diferentes na cena são atribuídos a cores diferentes, como personagens marcados em vermelho, o chão em marrom, placas em rosa, etc. Ao gerar imagens, o modelo irá produzir objetos específicos dentro da faixa correspondente de blocos de cor, assim alcançando uma restauração de conteúdo mais precisa.
Ao usar, é recomendado selecionar o pré-processador padrão seg_ufade20k. Os usuários também podem modificar o conteúdo da imagem preenchendo blocos de cor na imagem de pré-processamento.

Tile Resample
Tile Resample pode converter imagens de baixa resolução em versões de alta resolução minimizando a perda de qualidade.
Três pré-processadores: tile_resample, tile_colorfix e tile_colorfixsharp.
*Em comparação, o resample padrão oferece mais flexibilidade no desenho, e o conteúdo não diferirá significativamente da imagem original.

*Em comparação, o resample padrão oferece mais flexibilidade no desenho, e o conteúdo não diferirá significativamente da imagem original.
MLSD
Informações Básicas
O reconhecimento MLSD extrai linhas de borda retas da cena, tornando-se particularmente útil para delinear os limites geométricos lineares dos objetos. As aplicações mais típicas são nos campos de arquitetura geométrica, design de interiores e áreas similares.


Scribble HED
Informações Básicas
Scribble HED se assemelha a desenhos lineares de rabisco de giz de cera, oferecendo mais liberdade no controle do efeito da imagem.
Pré-processadores: HED, PiDiNet, XDoG e t2ia_sketch_pidi.
Como pode ser visto nas imagens abaixo, os dois primeiros pré-processadores produzem contornos mais espessos que estão mais alinhados com o efeito desenhado à mão de rabiscos, enquanto os dois últimos produzem linhas mais finas, adequadas para estilos realistas.


*Pode ser usado para colorir imagens de rascunho, com certo grau de aleatoriedade.
HED
Informações Básicas
HED cria limites claros e precisos ao redor dos objetos, com uma saída similar ao Canny. Sua eficácia reside na capacidade de capturar detalhes e contornos complexos enquanto retém características detalhadas (expressões faciais, cabelo, dedos, etc.). O pré-processador HED pode ser usado para modificar o estilo e cor de uma imagem.
Comparado ao Canny, HED produz linhas mais suaves e retém mais detalhes. Os usuários podem escolher o pré-processador apropriado baseado em suas necessidades reais.


color_grid
Informações Básicas
Através do uso de pré-processadores, podemos obter resultados do processamento de blocos de cor, onde as imagens geradas serão redesenhadas baseadas nas cores originais.

shuffle
Informações Básicas
Ao embaralhar aleatoriamente todas as características de informação da imagem de referência e depois recombinando-as, a imagem gerada pode diferir do original em estrutura, conteúdo, etc., mas uma dica de correlação estilística ainda pode ser observada.
O uso de recombinação de conteúdo não é amplamente difundido devido à sua estabilidade de controle relativamente pobre. No entanto, usá-lo para ganhar inspiração poderia ser uma boa escolha.

Reference Generation
Informações Básicas
Para gerar uma nova imagem baseada no original de referência, é recomendado usar o pré-processador padrão "only".
Peso de Controle: Quanto maior o valor, mais forte a estabilidade da imagem, e mais óbvios os traços do estilo da imagem original serão preservados.

recolor
Preencher cores para imagens é muito adequado para reparar algumas fotos antigas em preto e branco. No entanto, não pode garantir que as cores apareçam com precisão em posições específicas, e pode haver casos de contaminação de cor.
Pré-processadores: "intensity" e "luminance", sendo "luminance" recomendado.

ip_adapter
Informações Básicas
Transformar uma imagem carregada em prompts de imagem permite reconhecer o estilo artístico e conteúdo da imagem de referência, e então gerar trabalhos similares. Também pode ser usado em conjunto com outros ControlNet.

Método de Operação
Carregue a imagem original A que precisa ser gerada, e selecione opções de ControlNet como Canny, openpose, Depth, etc.

Adicione um novo ControlNet, ip_adapter, carregue a imagem de estilo B que você quer herdar, e finalmente clique em Criar.

Resultado: Imagem A com o estilo de B.
Last updated