Como hacer mejores modelos en Dreambooth usando captions

Este método, usando captions, produce los mejores resultados hasta ahora en los entrenamientos de modelos de estilo artístico. Las ventajas que se tiene al usar captions es que:

El estilo de la imagen de entrenamiento aparece con CUALQUIER tema.
El tema de las imágenes de entrenamiento NO aparece.
El estilo no desaparece cuando se combina con otros estilos.

Configuración.

software: extensión Dreambooth para Auto1111 (versión reciente)
training sampler: DDIM
learning rate: 0.0000017
imágenes de entrenamiento: 40
classifier images: 0 - prior preservation disabled
steps: 10.000 (pero buenos resultados a 8.000 o 400x)
classifier images: 0 - prior preservation disabled
instance prompt: tchnclr [filewords]
class prompt: [filewords]

Cómo crear subtítulos [filewords]

Para cada imagen de entrenamiento, cree un archivo de texto con el mismo nombre de archivo (por ejemplo, 'train1.jpg' 'train1.txt')
Describa cada imagen de entrenamiento manualmente; no use subtítulos automáticos a través de CLIP/BLIP
Describa el contenido de cada imagen de entrenamiento con gran detalle, no describa el estilo.

La mayoría de mis imágenes contenían rostros, y principalmente usé esta plantilla:
- a [closeup?] of a [expresión emocional] [raza] [joven / viejo / X años de edad] [hombre / mujer / etc.],
- with [estilo de pelo y color] and [estilo de maquillaje],
- wearing [tipo de ropa y color],
- while [de pie / sentado / etc.] near [Objetos cercanos destacados],
- [fuera / dentro] with [borroso?] [objects / color ] in the background,
- in [periodo de tiempo]
Por ejemplo: "a surprised caucasian 30 year old woman, with short brown hair and red lipstick, wearing a pink shawl and white shirt, while standing outside, with a ground and a house in the background, in the 1950s"
Use la instancia prompt "keyword [filewords]" y la clase prompt "[filewords]"

Cómo funciona

Cuando se completa el entrenamiento, si ingresa uno de los subtítulos de entrenamiento textualmente en el prompt de generación, obtendrá una imagen de salida que coincide casi exactamente con la imagen de entrenamiento correspondiente. Pero si luego elimina o reemplaza una pequeña parte de ese prompt, la parte correspondiente de la imagen se eliminará o reemplazará. Por ejemplo, puede cambiar la edad o el sexo, y el resto de la imagen seguirá siendo similar a esa imagen de entrenamiento específica.
Dado que no se deshabilitó la preservación previa (no se usaron imágenes de clasificación), la salida se ajusta en exceso a las imágenes de entrenamiento, pero de una manera muy controlable. El estilo visual siempre se aplica ya que está en cada imagen de entrenamiento. Todas las palabras utilizadas en cualquiera de los captions se asocian con la forma en que se ven en esas imágenes. Se necesitan tantas imágenes diversas y subtítulos extensos.

Ejemplo

Imagen de entrenamiento
Esta fue una de las imágenes de entrenamiento. Vea mi respuesta a continuación para saber cómo aparece esto en el modelo.El siguiente ejemplo es del caso del usuario @terrariyum de la comunidad de Reddit (ingles) que muesta los resultados que obtuvo.

Este es el resultado cuando el prompt de generación contiene exactamente el mismo texto que el captions de la instancia: "tchnclr, a surprised caucasian 30 year old woman, with short brown hair and red lipstick, wearing a pink shawl and white shirt, while standing outside, with a ground and a house in the background, in the 1950s"
Generación con prompt igual a caption
Extremadamente similar a la imagen de entrenamiento que se muestra arriba

Modificando una palabra: "tchnclr, a surprised caucasian 30 year old woman, with short brown hair and red lipstick, wearing a blue shawl and white shirt, while standing outside, with a ground and a house in the background, in the 1950s"
Cambiando el color a blue

Ahora: "tchnclr, a surprised caucasian 30 year old woman, with short brown hair and red lipstick, wearing a pink shawl and white shirt, while standing outside, with a jungle in the background, in the 1950s"
En la jungla

Como niña negra sonriente de 10 años en la jungla: "tchnclr, a smiling black 10 year old girl, with short brown hair and red lipstick, wearing a pink shawl and white shirt, while standing outside, with a jungle in the background, in the 1950s"

Como una niña negra de diez años sonriendo y que lleva una camiseta azul en la jungla en el 2010: "tchnclr, a smiling black 10 year old girl, with short brown hair and red lipstick, wearing a blue (t-shirt:1.1), with a jungle in the background, in the 2010s

Traducido de Make better Dreambooth style models by using captions