
Un artículo de revisión firmado por investigadores afiliados a Fudan University, Shanghai Innovation Institute y National University of Singapore introduce la categoría World Action Models (WAMs) como una familia de enfoques para control robótico. Tras evaluar cerca de cien trabajos en robótica y aprendizaje visual, los autores sostienen que los WAMs permiten a los robots simular las consecuencias de una acción antes de ejecutarla, lo que convierte videos cotidianos no etiquetados en una fuente potencial de datos de entrenamiento.
Esta capacidad es relevante porque reduce la necesidad de datos robot‑específicos y etiquetados. Los autores distinguen dos arquitecturas principales. Las Cascaded WAMs generan primero un fotograma o un video predictivo del futuro y, a partir de esa predicción visual, derivan comandos de control; es un enfoque secuencial de predicción seguida de control. La otra línea integra predicción y política en un solo flujo, procesando de forma conjunta o paralela la entrada visual y las acciones para producir directamente señales de control.
El análisis de la revisión muestra que estas ramas han evolucionado y se han diversificado desde 2024. La diferencia clave con los modelos visión‑acción convencionales es que los WAMs no limitan el aprendizaje a mapear observaciones directamente a movimientos: modelan la dinámica del entorno y establecen un puente entre la predicción visual y las señales de control. Según los autores, esa combinación mejora la generalización a objetos y escenarios desconocidos y permite aprovechar videos de personas sin etiquetas de acción como datos útiles para entrenar políticas robóticas.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.