AI‑агент OpenClaw научили видеть и хватать предметы на реальной руке LeRobot 101

Новость

Редактор новостной ленты

5/20/2026, 7:19:30 PM

AI‑агент OpenClaw научили видеть и хватать предметы на реальной руке LeRobot 101

Автор подключил агент OpenClaw к реальной манипуляторной руке LeRobot 101 и добился, чтобы агент самостоятельно сконфигурировал аппаратное подключение, откалибровал сустава и использовал камеру на «повторяющей» руке для обнаружения и медленного захвата объектов. Результат — агент не только выполнил первичные манипуляции с красным мячом, но и помог подготовить тренировочные данные и обучить отдельную модель, которая успешно поднимает и размещает предметы в реальном мире. Это уменьшило часть ручной работы по настройке и продемонстрировало практический потенциал автоматизированной генерации кода для роботов.

LeRobot 101 — предсобранная платформа из открытого проекта HuggingFace: в комплекте две руки — «контроллерная», управляемая человеком через рукоять и триггер, и «повторяющая» с камерой, которая копирует движения контроллера. Метод обучения основан на телезапуске (operator demonstration): человек проводит демонстрацию с контроллера, а follower учится воспроизводить действия по видеопотоку. Автор отмечает, что до вмешательства агента на подключение и калибровку ушли часы, и при неправильных настройках он едва не перегрел моторы.

В работе с железом агенту ассистировал Codex: модель помогла с трудной конфигурацией соединений, поддержала калибровку суставов и сгенерировала Python‑скрипт, использующий несколько библиотек для распознавания и захвата красного мяча. Автор называет такой стиль взаимодействия «vibe‑coding»: он выявил сильные стороны автоматизированного кодогенерирования, но при этом показал уязвимости — галлюцинации моделей и реальные баги на разных аппаратных конфигурациях.

Теоретическую основу подхода составил термин «code as policy», впервые выделенный в исследовании 2022 года; на его базе группа Кена Голдберга совместно с NVIDIA, Carnegie Mellon и Stanford разработала бенчмарк CaP‑X для оценки возможностей кодирующих моделей в робототехнике, а также CaP‑Gym и агентную надстройку CaP‑Agent0. По данным разработчиков, CaP‑Agent0 в ряде задач превосходит модели, обученные напрямую на траекториях управления.

Практическое значение для разработчиков в том, что способность моделей писать и отлаживать код снижает порог входа в робототехнику и сокращает разрыв между надёжными инженерными методами и обобщающими language‑action системами. Вместе с тем автор подчёркивает необходимость строгой валидации: проверять ошибки после каждого прогона, тщательно калибровать приводы и учитывать аппаратные различия. NVIDIA уже проводит внутренние хакатоны по «vibe‑coding», а Спенсер Хуанг участвует в совместных с Голдбергом исследованиях, направленных на расширение совместимости подхода с большим числом роботов.

Источники

WIRED AI · 5/20/2026

Ответы (0)

Пока нет ответов в этой теме.