Meta AI y Carnegie Mellon presentan MapAnything, un innovador modelo 3D de reconstrucción
Meta AI, en colaboración con la Universidad Carnegie Mellon, ha lanzado MapAnything, un innovador modelo de reconstrucción 3D que combina múltiples tareas de visión bajo un único sistema de transformador, logrando resultados de vanguardia en estimación de profundidad y calibración con un enfoque unificado y modular, que facilita el uso de entradas heterogéneas.

Un equipo de investigadores de Meta Reality Labs y la Universidad Carnegie Mellon ha lanzado MapAnything, una innovadora arquitectura de transformador de extremo a extremo que regresa directamente la geometría de escenas 3D métricas factorizadas a partir de imágenes y entradas de sensores opcionales. Este modelo ha sido publicado bajo la licencia Apache 2.0, y viene acompañado de todo el código de entrenamiento y benchmarking, representando un avance significativo al ofrecer soporte para más de 12 tareas de visión 3D distintas en una única pasada de retroalimentación.
¿Por qué un modelo universal para la reconstrucción 3D?
Históricamente, la reconstrucción 3D basada en imágenes ha dependido de tuberías fragmentadas que incluyen detección de características, estimación de pose en dos vistas, ajuste de conjunto, estéreo multivista o inferencia de profundidad monocular. Aunque estos enfoques modulares han sido eficaces, requieren ajustes específicos para cada tarea, optimización y un procesamiento posterior intensivo.
Modelos recientes basados en transformadores, como DUSt3R, MASt3R y VGGT, han simplificado partes de esta tubería, pero han presentado limitaciones como un número fijo de vistas, supuestos rígidos sobre las cámaras o dependencia de representaciones acopladas que requirieron costosas optimizaciones.
Lee también
MapAnything supera estas restricciones al:
Aceptar hasta 2,000 imágenes de entrada en una sola inferencia.
Utilizar de manera flexible datos auxiliares como intrínsecos de cámara, poses y mapas de profundidad.
Producir reconstrucciones métricas 3D directas sin necesidad de ajuste de conjunto.
La representación de escena factorizada del modelo —compuesta por mapas de rayos, profundidad, poses y un factor de escala global— ofrece una modularidad y generalidad sin precedentes en comparación con enfoques anteriores.
Arquitectura y representación
MapAnything se fundamenta en un transformador de atención alternante multivista. Cada imagen de entrada se codifica con características DINOv2 ViT-L, mientras que las entradas opcionales (rayos, profundidad, poses) se codifican en el mismo espacio latente mediante CNNs superficiales o MLPs. Un token de escala aprendible permite la normalización métrica a través de las vistas.
La red genera una representación factorizada que incluye:
Direcciones de rayos por vista (calibración de cámara).
Profundidad a lo largo de los rayos, predicha a escala.
Poses de cámara relativas a una vista de referencia.
Un único factor de escala métrico que convierte las reconstrucciones locales en un marco globalmente consistente.
Esta factoración explícita evita redundancias, lo que permite que el mismo modelo maneje estimaciones de profundidad monocular, estéreo multivista, estructura a partir del movimiento (SfM) o completación de profundidad sin cabezas especializadas.
Estrategia de entrenamiento
MapAnything fue entrenado a través de 13 conjuntos de datos diversos que abarcan dominios interiores, exteriores y sintéticos, incluyendo BlendedMVS, Mapillary Planet-Scale Depth, ScanNet++ y TartanAirV2. Se han liberado dos variantes:
Modelo con licencia Apache 2.0 entrenado en seis conjuntos de datos.
Modelo CC BY-NC entrenado en los trece conjuntos para un rendimiento superior.
Las estrategias clave de entrenamiento incluyen:
Deserción de entrada probabilística: Durante el entrenamiento, las entradas geométricas (rayos, profundidad, pose) se proporcionan con probabilidades variables, lo que permite robustez en configuraciones heterogéneas.
Muestreo basado en covisibilidad: Asegura que las vistas de entrada tengan una superposición significativa, apoyando la reconstrucción de hasta más de 100 vistas.
Pérdidas factorizadas en espacio logarítmico: La profundidad, la escala y la pose se optimizan utilizando pérdidas de regresión robustas e invariantes a escala para mejorar la estabilidad.
El entrenamiento se llevó a cabo en 64 GPUs H200 con precisión mixta, verificación de gradientes, y programación curricular, escalando de 4 a 24 vistas de entrada.
Resultados de benchmarking
Reconstrucción densa multivista
En pruebas en ETH3D, ScanNet++ v2 y TartanAirV2-WB, MapAnything logra un rendimiento de vanguardia (SoTA) en mapas de puntos, estimación de profundidad, pose y rayos. Supera las líneas base como VGGT y Pow3R, incluso cuando se limita únicamente a imágenes, y mejora aún más con calibración o priors de pose.
Por ejemplo:
El error relativo del mapa de puntos (rel) mejora a 0.16 solo con imágenes, en comparación con 0.20 de VGGT.
Con imágenes + intrínsecos + poses + profundidad, el error cae a 0.01, logrando más del 90% de ratios de inler.
Reconstrucción en dos vistas
En comparación con DUSt3R, MASt3R y Pow3R, MapAnything supera consistentemente en precisión de escala, profundidad y pose. Notablemente, con priors adicionales, logra más del 92% de ratios de inler en tareas de dos vistas, significativamente más allá de modelos anteriores de retroalimentación.
Calibración de una sola vista
A pesar de no haber sido entrenado específicamente para la calibración de imágenes individuales, MapAnything alcanza un error angular promedio de 1.18°, superando a AnyCalib (2.01°) y MoGe-2 (1.95°).
Estimación de profundidad
En la evaluación robusta MVD:
MapAnything establece un nuevo récord SoTA para la estimación de profundidad métrica multivista.
Con entradas auxiliares, sus tasas de error rivalizan o superan a modelos de profundidad especializados como MVSA y Metric3D v2.
En general, los benchmarks confirman una mejora de 2 veces en comparación con los métodos previos SoTA en muchas tareas, validando los beneficios de un entrenamiento unificado.
Contribuciones clave
El equipo de investigación destaca cuatro contribuciones principales:
Modelo de retroalimentación unificado capaz de manejar más de 12 configuraciones de problemas, desde profundidad monocular hasta SfM y estéreo.
Representación de escena factorizada que permite una separación explícita de rayos, profundidad, pose y escala métrica.
Rendimiento de estado del arte a través de diversos benchmarks con menos redundancias y mayor escalabilidad.
Publicación de código abierto, incluyendo procesamiento de datos, scripts de entrenamiento, benchmarks y pesos preentrenados bajo Apache 2.0.
Conclusión
MapAnything establece un nuevo estándar en visión 3D al unificar múltiples tareas de reconstrucción—SfM, estéreo, estimación de profundidad y calibración—bajo un único modelo de transformador con una representación de escena factorizada. No solo supera los métodos especializados en diversos benchmarks, sino que también se adapta sin problemas a entradas heterogéneas, incluyendo intrínsecos, poses y profundidad. Con código de código abierto, modelos preentrenados y soporte para más de 12 tareas, MapAnything sienta las bases para un auténtico respaldo de reconstrucción 3D de propósito general.
Para más detalles y actualizaciones sobre las últimas innovaciones tecnológicas, siga leyendo en Liven.
¿Te gustó esta noticia?
Mantente informado con las últimas noticias de Chile y el mundo.