Entrenamiento de imágenes

Concepto de LoRA

  • LoRA te permite ajustar de forma precisa características específicas de las imágenes sin modificar los pesos del Checkpoint base. Esto significa que puedes generar resultados visuales concretos simplemente ajustando la LoRA, sin necesidad de volver a entrenar todo el modelo.

  • Actualmente, el entrenamiento con LoRA suele realizarse sobre modelos base oficiales como SD1.5, SDXL, PONY, ILLUSTRIOUS, FLUX y SD3.5. También puedes afinar modelos creados por la comunidad.

  • ¿Cómo funciona el entrenamiento LoRA? Primero, la IA genera imágenes a partir de tus prompts. Luego, esas imágenes se comparan con las de tu conjunto de datos. El sistema ajusta gradualmente los vectores de embedding según las diferencias encontradas, guiando a la IA para que produzca resultados cada vez más parecidos a tu dataset. Finalmente, el modelo será capaz de generar imágenes casi idénticas en estilo o temática, creando una conexión asociativa sólida.

Flujo de trabajo para entrenar una LoRA

Cinco pasos: Prepara el dataset → Preprocesa las imágenes → Configura los parámetros → Supervisa el entrenamiento → Finaliza el entrenamiento

Preparación del dataset

Un dataset de alta calidad es clave para un entrenamiento eficaz del modelo. El dataset es la base del aprendizaje, así que asegurarte de que tenga el tamaño adecuado, esté correctamente etiquetado y bien editado es fundamental.

  • Por lo general, entre 20 y 40 imágenes son suficientes para muchos tipos de entrenamiento LoRA. Sin embargo, si estás entrenando una LoRA centrada en el estilo, puede que necesites más imágenes para lograr una mejor capacidad de generalización.

  • Más imágenes no siempre significan mejores resultados. Si agregas imágenes de baja calidad, podrías reducir la calidad general del modelo.

  • Las fuentes de tus imágenes pueden incluir bancos de fotos o imágenes generadas con IA.

  • Evita materiales de baja calidad con los siguientes problemas:

    • Demasiado oscuras o poco claras para identificar el contenido

    • Mala composición o sujeto fuera de foco

    • Posiciones inexactas o incómodas de las extremidades

    • Fondos demasiado complejos o con mucho ruido

    • Detalles borrosos, artefactos o imágenes ensambladas

    • Múltiples sujetos en una sola imagen que dificultan identificar el objetivo

  • El estilo de tu dataset debe coincidir con el estilo del Checkpoint base. Por ejemplo, si entrenas personajes de anime, usa un Checkpoint entrenado con ilustraciones de anime.

Entrenamiento de estilo de personaje

  • Entre 25 y 40 imágenes son suficientes para la mayoría de los modelos LoRA de personajes.

  • Utiliza al mismo personaje con poses, ángulos, atuendos, expresiones y fondos variados.

Ejemplo de dataset de 30 imágenes:

  • 12 retratos

  • 4 con fondo de playa

  • 4 con expresiones sonrientes

  • 6 con el atuendo original

  • 4 tomas de espalda

  • 6 tomas de medio cuerpo

  • 8 tomas de cuerpo completo

  • 6 poses sentadas

  • 8–10 poses de pie

Guía para datasets de LoRA de estilo

  • El modelo base que uses debe ser flexible y estilísticamente similar al estilo que estás entrenando.

  • Para estilos de ilustración, utiliza Checkpoints de estilo plano para que coincidan.

  • Todas las imágenes del dataset deben compartir un estilo coherente; esto es esencial al crear una LoRA de estilo.

Pronto publicaremos más actualizaciones. ¡Mantente atento!