2-3 ControlNet

Domina la generación de imágenes con IA usando ControlNet. Aprende sobre sus preprocesadores, cómo funciona y cómo utilizarlo para crear impresionantes obras de arte con IA.

¿Qué es ControlNet?

ControlNet es un complemento que se utiliza para controlar la generación de imágenes por IA. Utiliza una tecnología conocida como “Redes Generativas Antagonistas Condicionales” para generar imágenes. A diferencia de las redes generativas adversarias tradicionales, ControlNet permite a los usuarios controlar finamente las imágenes generadas, como cargar bocetos lineales para que la IA los coloree, controlar la postura de personajes, generar dibujos lineales, etc.

Four examples of AI images processed by different models

A diferencia de los modelos de dibujo tradicionales, un ControlNet completo consta de dos partes: un Modelo de Preprocesamiento y un ControlNet.

  • Modelo de preprocesamiento: extrae la información semántica espacial de la imagen original y la convierte en una vista previa visual, como bocetos lineales, mapas de profundidad, etc.

  • ControlNet: procesa información estructural más fundamental como las líneas y la profundidad de campo.

The process of generating an AI girl image using ControlNet

Canny

El modelo Canny identifica principalmente la información de bordes en las imágenes de entrada, siendo capaz de extraer dibujos lineales precisos de las imágenes cargadas. Luego genera nuevas escenas que coinciden con la composición de la imagen original según los prompts especificados.

Before and after comparison of using the Canny model to process a 3d cartoon image
Original / Preprocessing

Preprocesador:

  • Canny: detección de bordes nítidos.

  • Invert: invierte los colores a líneas negras sobre fondo blanco, cambiando el esquema de color del boceto.

Before and after comparison of using the Canny model to process a sketch image
Original / invert

La opción de Invert no es exclusiva de Canny y puedes utilizarlo junto con la mayoría de los modelos de dibujo lineal. Cuando selecciona tipos ControINet como Line Art o MLSD, la inversión estará disponible.

Modo de funcionamiento

Flujo de trabajo: Cargar la imagen - Seleccionar el modelo - Seleccionar tipo de ControlNet - Ingresar los prompts - Generar

El análisis inteligente infiere automáticamente prompts y modelos según la imagen. Si se desea un estilo diferente al de la imagen original, se recomienda desactivar el análisis inteligente.

Configuración de parámetros

Resolución de preprocesamiento:

La resolución de preprocesamiento afecta a la resolución de salida de la imagen de previsualización. Como la relación de aspecto de la imagen es fija, y la salida por defecto es una imagen 1x, el ajuste de resolución determina esencialmente el tamaño horizontal de la imagen de previsualización. Por ejemplo, si el tamaño de la imagen original y el de la imagen de destino son 512x768, al ajustar la resolución de preprocesado a 128, 256, 512, 1024, el tamaño de la imagen preprocesada cambiará a 128x192 (0.25x original), 256x384 (0.5x original), 512x768 (original), y 1024x1536 (2x original), respectivamente.

En general, cuanto mayor sea la resolución, más ricos serán los detalles generados.

*A veces, cuando la imagen de detección del preprocesado y el tamaño de la imagen final son incoherentes, es posible que las imágenes dibujadas resulten dañadas, con un claro pixelado en los bordes de las figuras en el dibujo final.

Examples of images processed by the Canny model with different resolution

Peso de control

Determina la intensidad del ControINet. Cuanto mayor sea la intensidad, más pronunciado será el efecto de control sobre la imagen y más se parecerá la imagen generada a la original.

Examples of superman images processed by the Canny model with different weight

Mode de control

Se usa para cambiar la proporción de peso entre ControlNet y los prompts. El valor predeterminado es Balanced.

● Prioridad a las indicaciones: Se debilitará el efecto del diagrama de control.

● Prioridad a la imagen de preprocesamiento: Se potenciará el efecto del diagrama de control.

Resultados de generación

En los resultados generados, puedes notar que la composición básica es exactamente la misma que la de la imagen original, pero los detalles son completamente diferentes. Si necesitas imágenes con otros cambios, como el color del pelo, los detalles faciales, la ropa, etc., puedes ajustar las palabras clave y los parámetros para conseguir los efectos deseados.

Four examples of AI-generated superman images with different models

OpenPose Full

OpenPose Full permite controlar con precisión los movimientos del cuerpo humano y los rasgos de expresión facial. Es capaz no solo de generar poses para una sola persona, sino también para varias.

OpenPose Full puede identificar puntos estructurales clave del cuerpo humano, como la cabeza, los hombros, los codos, las rodillas, etc., al tiempo que ignora los detalles de la ropa, los peinados y los fondos, lo que garantiza la reproducción fiel de poses y expresiones.

Preprocesador

Reconocimiento de poses humanas

Los procesadores por defecto son de la serie openpose, incluyendo openpose, face, faceonly, full, hand. Estos cinco preprocesadores se utilizan para detectar, respectivamente, rasgos faciales, extremidades, manos y otras estructuras del cuerpo humano.

Human pose recognition using preprocessors

Reconocimiento de pose animal

Es recomendable utilizar el procesador animal_openpose, que puede utilizarse junto con modelos de preprocesamiento especializados, como control_sd15_animal_openpose_fp16.En general, utilizar el preprocesador estándar openpose_full es suficiente.

Animal pose recognition

En general, es suficiente utilizar el preprocesador por defecto openpose_full.

Different examples of AI images with one pose

Line Art

Line Art también extrae arte lineal de los bordes de las imágenes, pero sus casos de uso son más específicos, incluyendo enfoques realistas y estilo anime.

Preprocesador

Line Art

Más adecuado para imágenes realistas, el arte lineal extraído es más restaurador, retiene más detalles de los bordes durante la detección, por lo que el efecto de control es más significativo.

Examples of AI images with different line art styles

Diferencia entre Line Art y Canny

Canny: Líneas rectas y duras, espesor uniforme.

Line Art: Trazos de pincel evidentes, similares a los dibujos a mano reales, que permiten observar claramente la transición de grosor bajo distintos bordes.

El Line Art conserva más detalles, lo que da lugar a una imagen relativamente más suave, y es más adecuado para las funciones de coloreado de line art.

Canny es más preciso y simplifica el contenido de la imagen.

Comparison of images processed by Line Art and Canny

*Line Art se puede utilizar para colorear imágenes en borrador, siguiendo totalmente el borrador.

Depth

Depth, también conocida como imágenes de distancia, refleja intuitivamente la información de profundidad tridimensional de los objetos de una escena. La profundidad se muestra en blanco y negro; cuanto más cerca esté un objeto de la cámara, más claro (blanco) será su color; por el contrario, cuanto más lejos esté, más oscuro (negro) será su color.

Comparison of the original image and the image processed with Depth
Original / Depth

Depth puede extraer la relación entre el primer plano y el fondo de los objetos de una imagen, crear un mapa de profundidad y aplicarlo al dibujo de imágenes. Por lo tanto, cuando es necesario aclarar la relación jerárquica de los objetos en una escena, la detección de profundidad puede servir como una potente herramienta auxiliar.

Se recomienda utilizar el preprocesador depth_midas para obtener mejores resultados en la salida de imágenes.

Comparison of the original image, depth image and result image
Original / Depth / Result

Normal Bae

Basic Information

Normal Bae consiste en generar un mapa de normales basado en la información de luces y sombras de la escena, simulando así los detalles de la textura de la superficie del objeto y restaurando con precisión la disposición del contenido de la escena. Por lo tanto, el reconocimiento de modelos se utiliza a menudo para reflejar detalles más realistas de luces y sombras en las superficies de los objetos. En el ejemplo siguiente, puede ver una mejora significativa en los efectos de iluminación y sombras de la escena después de dibujar con reconocimiento de modelo.

Al utilizarlo, es recomendable seleccionar el preprocesador normal_bae para obtener una mejora más notable en los efectos de iluminación y sombras.

Comparison of the original image, Normal Bae image and result image
Original / Normal Bae / Result

Segmentation

La segmentación puede dividir la escena en diferentes bloques al detectar los contornos del contenido, y asignar anotaciones semánticas a estos bloques, logrando así un control más preciso de la imagen.

Observando la imagen inferior, podemos ver que la imagen tras la detección de la segmentación semántica incluye bloques de diferentes colores. A los distintos contenidos de la escena se les asignan colores diferentes, como los personajes marcados en rojo, el suelo en marrón, los carteles en rosa, etc. Al generar imágenes, el modelo producirá objetos específicos dentro de la gama de bloques de color correspondiente, consiguiendo así una restauración de contenidos más precisa.

Al utilizarlo, es recomendable seleccionar el preprocesador seg_ufade20k por defecto. Los usuarios también pueden modificar el contenido de la imagen rellenando bloques de color en la imagen preprocesada.

Comparison of the original image, Segmentation image and result image
Original / Segmentation / Result

Tile Resample

Tile Resample puede convertir imágenes de baja resolución en versiones de mayor resolución, minimizando la pérdida de calidad.

Tres preprocesadores: tile_resample, tile_colorfix, y tile_colorfixsharp.

Examples of AI cartoon wolf images processed with different preprocessors

*En comparación, el resample por defecto ofrece más flexibilidad en el dibujo, y el contenido no diferirá significativamente de la imagen original.

MLSD

Basic Information

El reconocimiento MLSD extrae líneas de borde rectas de la escena, por lo que resulta especialmente útil para delinear los límites geométricos lineales de los objetos. Las aplicaciones más típicas se encuentran en los campos de la arquitectura geométrica, el diseño de interiores y áreas similares.

Comparison of the original image and the image after MLSD recognition
Comparison of the original image, MLSD recognition image, and result image

Scribble HED

Basic Information

Scribble HED se asemeja a los dibujos lineales con garabatos de lápices de colores, ofreciendo más libertad a la hora de controlar el efecto de la imagen.

Preprocesadores: HED, PiDiNet, XDoG y t2ia_sketch_pidi.

Como puedes ver en las imágenes siguientes, los dos primeros preprocesadores producen contornos más gruesos, más acordes con el efecto de dibujo a mano de los garabatos, mientras que los dos últimos producen líneas más finas, adecuadas para estilos realistas.

Examples of images processed with different Scribble HED preprocessors
Comparison of the original image, Scribble HED processed image, and the result image

*Es posible utilizarlo para colorear borradores de imágenes, con un cierto grado de aleatoriedad.

HED

HED crea límites claros y precisos alrededor de los objetos, con un resultado similar al de Canny. Su eficacia radica en la capacidad de capturar detalles y contornos complejos, conservando al mismo tiempo rasgos detallados (expresiones faciales, pelo, dedos, etc.). El preprocesador HED permite modificar el estilo y el color de una imagen.

En comparación con Canny, HED produce líneas más suaves y conserva más detalles. Puedes elegir el preprocesador adecuado en función de tus necesidades reales.

Comparison - original vs HED and original vs Canny
Four examples of AI-generated girl images processed with Scribble HED
HED

Color_grid

A través del uso de preprocesadores, puedes obtener resultados del procesamiento de bloques de color, donde las imágenes generadas se redibujarán basándose en los colores originales.

Comparison of original vs color_grid vs result

Shuffle

Al barajar aleatoriamente todas las características de información de la imagen de referencia y recombinarlas después, la imagen generada puede diferir de la original en estructura, contenido, etc., pero aún se puede observar un indicio de correlación estilística.

El uso de la recombinación de contenidos no está muy extendido debido a su relativamente escasa estabilidad de control. Sin embargo, utilizarla para obtener inspiración puede ser una buena opción.

Comparison of original vs shuffle vs result

Generación de referencia

Basic Information

Para generar una nueva imagen basada en el original de referencia, se recomienda utilizar el preprocesador "solo" por defecto.

Peso de control: Cuanto mayor sea el valor, mayor será la estabilidad de la imagen y más evidentes se conservarán las huellas del estilo de la imagen original.

Different reference images generated based on the cartoon fox image

Recolor

Filling in colors for images is very suitable for repairing some black-and-white old photos. However, it cannot guarantee that colors appear accurately in specific positions, and there might be cases of color contamination.

Preprocessors: "intensity" and "luminance", with "luminance" is recommended.

Comparison - original vs recolor_luminance vs recolor_intensity

Ip_adapter

Convertir una imagen cargada en imágenes de referencia te permite reconocer el estilo artístico y el contenido de la imagen de referencia y, a continuación, generar obras similares. También puedes utilizarlo junto con otros ControINet.

apply ip_adapter to an image to genrated a new one

Método de uso:

  1. Sube la imagen original A que necesitas generar, y selecciona las opciones de ControINet como Canny, openpose, Depth, etc.

  1. Añade un nuevo ControINet, ip_adapter, sube la imagen de estilo B que quieres heredar, y finalmente haz clic en Generar.

Resultado: Imagen A con el estilo de B.