SD3-Turbo: síntesis de imágenes de alta resolución rápida con destilación de difusión adversaria latente
23 de Marzo de 2024 in Análisis y Reseñas by Alejandro García
SD3-Turbo: Un nuevo avance en la síntesis de imágenes
Tras el éxito de Stable Diffusion 3, investigadores han presentado un nuevo método que permite una síntesis de imágenes de alta resolución aún más rápida: SD3-Turbo. Este método se basa en la destilación de difusión adversaria latente (LADD), que ofrece una serie de ventajas sobre las técnicas anteriores.
¿Qué es LADD?
LADD es un método de destilación de conocimiento que utiliza un modelo "maestro" grande y complejo para entrenar un modelo "estudiante" más pequeño y eficiente. En este caso, tanto el maestro como el estudiante se basan en la arquitectura de transformadores de SD3, con la versión de 8B de parámetros como la más grande y mejor.
Diferencias con ADD
LADD presenta algunas diferencias clave con la destilación adversaria difusa (ADD):
- Discriminador en el espacio latente: A diferencia de ADD, que utiliza un discriminador DINOv2 que opera en píxeles RGB, LADD vuelve a un discriminador en el espacio latente para mayor rapidez y menor consumo de memoria.
- Discriminador como copia del maestro: Se utiliza una copia del modelo maestro como discriminador, en lugar de uno entrenado discriminativamente. Esto permite que el discriminador observe las características intermedias en cada bloque de atención, lo que mejora la señal de entrenamiento.
- Imágenes con diferentes relaciones de aspecto: Se entrena con imágenes de diferentes relaciones de aspecto, no solo con cuadrados de 1:1.
- Sin pérdida de reconstrucción L2: Se elimina la pérdida de reconstrucción L2 entre las salidas del maestro y el estudiante, confiando en el discriminador para la calidad de la imagen.
- Énfasis en la estructura global: Se utiliza un muestreo más ruidoso en pasos posteriores del entrenamiento para que el estudiante aprenda mejor la estructura global de los objetos.
- Destilación en datos sintéticos: Se realiza la destilación en imágenes sintéticas generadas por el maestro, en lugar de en fotos del conjunto de datos.
Resultados:
SD3-Turbo es capaz de generar imágenes de alta calidad en solo 4 pasos, lo que lo hace significativamente más rápido que modelos anteriores. Según una evaluación humana con 128 indicaciones, la calidad de la imagen del estudiante es comparable a la del maestro, aunque la alineación de la indicación aún necesita mejoras.
Comparación con Midjourney:
Los autores también compararon SD3-Turbo con Midjourney 6, encontrando que el nuevo método supera a Midjourney en calidad de imagen y alineación de indicaciones.
Disponibilidad:
Los pesos de SD3-Turbo aún no se han publicado, pero se espera que estén disponibles en breve.
Conclusión:
SD3-Turbo representa un avance significativo en la síntesis de imágenes de alta resolución. Su velocidad, calidad de imagen y flexibilidad lo convierten en una herramienta poderosa para artistas, diseñadores e investigadores.
Para más información:
- Preprint del artículo: https://www.nature.com/articles/s42003-023-05225-y
- Discusión en Reddit: https://www.reddit.com/r/edrums/comments/v5kylu/sd3im_overwhelmed/
Esperamos con interés la disponibilidad de los pesos de SD3-Turbo para poder realizar pruebas y comparaciones más exhaustivas.