2-3 ControlNet
Domina la generación de imágenes con IA usando ControlNet. Aprende sobre sus preprocesadores, cómo funciona y cómo utilizarlo para crear impresionantes obras de arte con IA.
¿Qué es ControlNet?
ControlNet es un complemento que se utiliza para controlar la generación de imágenes por IA. Utiliza una tecnología conocida como “Redes Generativas Antagonistas Condicionales” para generar imágenes. A diferencia de las redes generativas adversarias tradicionales, ControlNet permite a los usuarios controlar finamente las imágenes generadas, como cargar bocetos lineales para que la IA los coloree, controlar la postura de personajes, generar dibujos lineales, etc.

A diferencia de los modelos de dibujo tradicionales, un ControlNet completo consta de dos partes: un Modelo de Preprocesamiento y un ControlNet.
Modelo de preprocesamiento: extrae la información semántica espacial de la imagen original y la convierte en una vista previa visual, como bocetos lineales, mapas de profundidad, etc.
ControlNet: procesa información estructural más fundamental como las líneas y la profundidad de campo.

Canny
El modelo Canny identifica principalmente la información de bordes en las imágenes de entrada, siendo capaz de extraer dibujos lineales precisos de las imágenes cargadas. Luego genera nuevas escenas que coinciden con la composición de la imagen original según los prompts especificados.

Preprocesador:
Canny: detección de bordes nítidos.
Invert: invierte los colores a líneas negras sobre fondo blanco, cambiando el esquema de color del boceto.

La opción de Invert no es exclusiva de Canny y puedes utilizarlo junto con la mayoría de los modelos de dibujo lineal. Cuando selecciona tipos ControINet como Line Art o MLSD, la inversión estará disponible.
Modo de funcionamiento
Flujo de trabajo: Cargar la imagen - Seleccionar el modelo - Seleccionar tipo de ControlNet - Ingresar los prompts - Generar
El análisis inteligente infiere automáticamente prompts y modelos según la imagen. Si se desea un estilo diferente al de la imagen original, se recomienda desactivar el análisis inteligente.
Configuración de parámetros
Resolución de preprocesamiento:
La resolución de preprocesamiento afecta a la resolución de salida de la imagen de previsualización. Como la relación de aspecto de la imagen es fija, y la salida por defecto es una imagen 1x, el ajuste de resolución determina esencialmente el tamaño horizontal de la imagen de previsualización. Por ejemplo, si el tamaño de la imagen original y el de la imagen de destino son 512x768, al ajustar la resolución de preprocesado a 128, 256, 512, 1024, el tamaño de la imagen preprocesada cambiará a 128x192 (0.25x original), 256x384 (0.5x original), 512x768 (original), y 1024x1536 (2x original), respectivamente.
En general, cuanto mayor sea la resolución, más ricos serán los detalles generados.
*A veces, cuando la imagen de detección del preprocesado y el tamaño de la imagen final son incoherentes, es posible que las imágenes dibujadas resulten dañadas, con un claro pixelado en los bordes de las figuras en el dibujo final.

Peso de control
Determina la intensidad del ControINet. Cuanto mayor sea la intensidad, más pronunciado será el efecto de control sobre la imagen y más se parecerá la imagen generada a la original.

Mode de control
Se usa para cambiar la proporción de peso entre ControlNet y los prompts. El valor predeterminado es Balanced.
● Prioridad a las indicaciones: Se debilitará el efecto del diagrama de control.
● Prioridad a la imagen de preprocesamiento: Se potenciará el efecto del diagrama de control.
Resultados de generación
En los resultados generados, puedes notar que la composición básica es exactamente la misma que la de la imagen original, pero los detalles son completamente diferentes. Si necesitas imágenes con otros cambios, como el color del pelo, los detalles faciales, la ropa, etc., puedes ajustar las palabras clave y los parámetros para conseguir los efectos deseados.

OpenPose Full
OpenPose Full permite controlar con precisión los movimientos del cuerpo humano y los rasgos de expresión facial. Es capaz no solo de generar poses para una sola persona, sino también para varias.
OpenPose Full puede identificar puntos estructurales clave del cuerpo humano, como la cabeza, los hombros, los codos, las rodillas, etc., al tiempo que ignora los detalles de la ropa, los peinados y los fondos, lo que garantiza la reproducción fiel de poses y expresiones.

Preprocesador
Reconocimiento de poses humanas
Los procesadores por defecto son de la serie openpose, incluyendo openpose, face, faceonly, full, hand. Estos cinco preprocesadores se utilizan para detectar, respectivamente, rasgos faciales, extremidades, manos y otras estructuras del cuerpo humano.

Reconocimiento de pose animal
Es recomendable utilizar el procesador animal_openpose, que puede utilizarse junto con modelos de preprocesamiento especializados, como control_sd15_animal_openpose_fp16.En general, utilizar el preprocesador estándar openpose_full es suficiente.

En general, es suficiente utilizar el preprocesador por defecto openpose_full.


Line Art
Line Art también extrae arte lineal de los bordes de las imágenes, pero sus casos de uso son más específicos, incluyendo enfoques realistas y estilo anime.

Preprocesador
Line Art
Más adecuado para imágenes realistas, el arte lineal extraído es más restaurador, retiene más detalles de los bordes durante la detección, por lo que el efecto de control es más significativo.

Diferencia entre Line Art y Canny
Canny: Líneas rectas y duras, espesor uniforme.
Line Art: Trazos de pincel evidentes, similares a los dibujos a mano reales, que permiten observar claramente la transición de grosor bajo distintos bordes.
El Line Art conserva más detalles, lo que da lugar a una imagen relativamente más suave, y es más adecuado para las funciones de coloreado de line art.
Canny es más preciso y simplifica el contenido de la imagen.

*Line Art se puede utilizar para colorear imágenes en borrador, siguiendo totalmente el borrador.
Depth
Depth, también conocida como imágenes de distancia, refleja intuitivamente la información de profundidad tridimensional de los objetos de una escena. La profundidad se muestra en blanco y negro; cuanto más cerca esté un objeto de la cámara, más claro (blanco) será su color; por el contrario, cuanto más lejos esté, más oscuro (negro) será su color.

Depth puede extraer la relación entre el primer plano y el fondo de los objetos de una imagen, crear un mapa de profundidad y aplicarlo al dibujo de imágenes. Por lo tanto, cuando es necesario aclarar la relación jerárquica de los objetos en una escena, la detección de profundidad puede servir como una potente herramienta auxiliar.
Se recomienda utilizar el preprocesador depth_midas para obtener mejores resultados en la salida de imágenes.

Normal Bae
Basic Information
Normal Bae consiste en generar un mapa de normales basado en la información de luces y sombras de la escena, simulando así los detalles de la textura de la superficie del objeto y restaurando con precisión la disposición del contenido de la escena. Por lo tanto, el reconocimiento de modelos se utiliza a menudo para reflejar detalles más realistas de luces y sombras en las superficies de los objetos. En el ejemplo siguiente, puede ver una mejora significativa en los efectos de iluminación y sombras de la escena después de dibujar con reconocimiento de modelo.
Al utilizarlo, es recomendable seleccionar el preprocesador normal_bae para obtener una mejora más notable en los efectos de iluminación y sombras.

Segmentation
La segmentación puede dividir la escena en diferentes bloques al detectar los contornos del contenido, y asignar anotaciones semánticas a estos bloques, logrando así un control más preciso de la imagen.
Observando la imagen inferior, podemos ver que la imagen tras la detección de la segmentación semántica incluye bloques de diferentes colores. A los distintos contenidos de la escena se les asignan colores diferentes, como los personajes marcados en rojo, el suelo en marrón, los carteles en rosa, etc. Al generar imágenes, el modelo producirá objetos específicos dentro de la gama de bloques de color correspondiente, consiguiendo así una restauración de contenidos más precisa.
Al utilizarlo, es recomendable seleccionar el preprocesador seg_ufade20k por defecto. Los usuarios también pueden modificar el contenido de la imagen rellenando bloques de color en la imagen preprocesada.

Tile Resample
Tile Resample puede convertir imágenes de baja resolución en versiones de mayor resolución, minimizando la pérdida de calidad.
Tres preprocesadores: tile_resample, tile_colorfix, y tile_colorfixsharp.

*En comparación, el resample por defecto ofrece más flexibilidad en el dibujo, y el contenido no diferirá significativamente de la imagen original.
MLSD
Basic Information
El reconocimiento MLSD extrae líneas de borde rectas de la escena, por lo que resulta especialmente útil para delinear los límites geométricos lineales de los objetos. Las aplicaciones más típicas se encuentran en los campos de la arquitectura geométrica, el diseño de interiores y áreas similares.


Scribble HED
Basic Information
Scribble HED se asemeja a los dibujos lineales con garabatos de lápices de colores, ofreciendo más libertad a la hora de controlar el efecto de la imagen.
Preprocesadores: HED, PiDiNet, XDoG y t2ia_sketch_pidi.
Como puedes ver en las imágenes siguientes, los dos primeros preprocesadores producen contornos más gruesos, más acordes con el efecto de dibujo a mano de los garabatos, mientras que los dos últimos producen líneas más finas, adecuadas para estilos realistas.


*Es posible utilizarlo para colorear borradores de imágenes, con un cierto grado de aleatoriedad.
HED
HED crea límites claros y precisos alrededor de los objetos, con un resultado similar al de Canny. Su eficacia radica en la capacidad de capturar detalles y contornos complejos, conservando al mismo tiempo rasgos detallados (expresiones faciales, pelo, dedos, etc.). El preprocesador HED permite modificar el estilo y el color de una imagen.
En comparación con Canny, HED produce líneas más suaves y conserva más detalles. Puedes elegir el preprocesador adecuado en función de tus necesidades reales.


Color_grid
A través del uso de preprocesadores, puedes obtener resultados del procesamiento de bloques de color, donde las imágenes generadas se redibujarán basándose en los colores originales.

Shuffle
Al barajar aleatoriamente todas las características de información de la imagen de referencia y recombinarlas después, la imagen generada puede diferir de la original en estructura, contenido, etc., pero aún se puede observar un indicio de correlación estilística.
El uso de la recombinación de contenidos no está muy extendido debido a su relativamente escasa estabilidad de control. Sin embargo, utilizarla para obtener inspiración puede ser una buena opción.

Generación de referencia
Basic Information
Para generar una nueva imagen basada en el original de referencia, se recomienda utilizar el preprocesador "solo" por defecto.
Peso de control: Cuanto mayor sea el valor, mayor será la estabilidad de la imagen y más evidentes se conservarán las huellas del estilo de la imagen original.

Recolor
Filling in colors for images is very suitable for repairing some black-and-white old photos. However, it cannot guarantee that colors appear accurately in specific positions, and there might be cases of color contamination.
Preprocessors: "intensity" and "luminance", with "luminance" is recommended.

Ip_adapter
Convertir una imagen cargada en imágenes de referencia te permite reconocer el estilo artístico y el contenido de la imagen de referencia y, a continuación, generar obras similares. También puedes utilizarlo junto con otros ControINet.

Método de uso:
Sube la imagen original A que necesitas generar, y selecciona las opciones de ControINet como Canny, openpose, Depth, etc.

Añade un nuevo ControINet, ip_adapter, sube la imagen de estilo B que quieres heredar, y finalmente haz clic en Generar.

Resultado: Imagen A con el estilo de B.