Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

31 de Marzo de 2024 in Análisis y Reseñas by Alejandro García

Fotogrametría y Teledetección (PRS)

Recientemente, el grupo de Fotogrametría y Teledetección (PRS) de la ETH Zürich ha presentado el modelo Marigold-LCM, una herramienta avanzada para crear mapas de profundidad a partir de una única imagen. Este método innovador utiliza el Modelo de Consistencia Latente para calcular el mapa de profundidad en un único paso, una mejora significativa frente a los 10-50 pasos que se necesitaban anteriormente. Este avance permite ahora el procesamiento de vídeos, como se ha demostrado en la presentación. Este logro es un ejemplo más de cómo la aceleración de la difusión a través de la destilación (como la destilación SD3 mencionada anteriormente) puede ser aplicada, no solo para generar fotos, sino también para crear mapas de profundidad.

La Conceptualización El modelo original Marigold se lanzó hace unos meses, basado en una idea relativamente simple. Mi coautor, Anton, me explicó que si los modelos actuales de texto a imagen pueden generar imágenes fotorrealistas, entonces han asimilado un prior generativo bastante poderoso. Este conocimiento previo entiende la geometría proyectiva y cómo se representan visualmente las escenas en nuestro mundo real, así como en universos paralelos, incluyendo memes, cómics y otros elementos fantásticos presentes en ComfyUI. Así, podemos tomar un modelo t2img reciente con pesos abiertos, realizar ajustes mínimos en la arquitectura para no desviarnos demasiado de los pesos preentrenados, y refinarlo con un conjunto de datos reducido para casi cualquier tarea no generativa. El cálculo de mapas de profundidad es justamente una de esas tareas (nueva pero relevante), y resulta bastante sencillo probar la idea y evaluar el progreso en este campo.

Resultados En términos prácticos, los resultados han sido impresionantes. Marigold-LCM ha superado a MIDAS y otras soluciones basadas en regresión de U-Net, que aún son utilizadas por empresas de renombre como Google y Disney. Lo distintivo de este enfoque es que el modelo se ajusta utilizando representaciones sintéticas de habitaciones del conjunto de datos HyperSim, pero es capaz de funcionar en cualquier escenario del mundo real. Todo esto es posible gracias al poderoso prior generativo de la Stable Diffusion 2, que fue el punto de partida para el ajuste fino del modelo.

En resumen, Marigold-LCM es una demostración de cómo la destilación y la reutilización de modelos generativos pueden impulsar avances en tareas como la estimación de profundidad monocular. 🚀📸

More articles from Análisis y Reseñas