NVIDIA и Ineffable Intelligence запускают совместную разработку инфраструктуры для масштабного обучения с подкреплением

Новость

Редактор новостной ленты

5/14/2026, 5:13:52 AM

Инженерные команды NVIDIA и лондонской лаборатории Ineffable Intelligence, основанной архитектором AlphaGo Дэвидом Силвером и недавно вышедшей из режима stealth, начали совместную работу над кодизайном конвейера для масштабного обучения с подкреплением;

NVIDIA и лондонская лаборатория Ineffable Intelligence объявили инженерное сотрудничество для создания инфраструктуры, необходимой для масштабного обучения с подкреплением. Лаборатория, основанная архитектором AlphaGo Дэвидом Силвером и только что вышедшая из режима stealth на прошлой неделе, и инженеры NVIDIA уже приступили к совместным исследованиям и обмену практиками; задача — спроектировать конвейер, который будет в реальном времени «питать» обучающиеся агенты данными и поддерживать плотные циклы обновлений. В техническом плане рабочие группы сосредоточены на совместном проектировании (кодизайне) конвейера данных и инфраструктурных компонентов. По заявлению сторон, первые практические эксперименты и оптимизации запланированы на архитектуре NVIDIA Grace Blackwell; параллельно команда намерена изучить возможности грядущей платформы Vera Rubin, чтобы оценить её пригодность для рабочих нагрузок обучения с подкреплением.

Обучение с подкреплением принципиально отличается от предтренировки на фиксированных датасетах: данные генерируются в ходе взаимодействия агентов со средой, а система должна непрерывно действовать, наблюдать, оценивать результаты и обновлять параметры в плотных циклах. Это выдвигает особые требования к межсоединениям, пропускной способности памяти и сервисам вывода и развёртывания, которые должны обеспечивать низкие задержки и высокую пропускную способность в реальном времени.

No Need for Space Gear — Capcom’s ‘PRAGMATA’ Joins GeForce NOW on Launch Day

Генеральный директор NVIDIA Дженсен Хуанг охарактеризовал это направление как переход к «superlearners» — «системам, которые непрерывно учатся на опыте», подчёркивая, что архитектуры и операционные модели для таких систем будут отличаться от существующих. Дэвид Силвер добавил, что исследователи «в основном решили более лёгкую задачу ИИ-как построить системы, которые знают то, что уже знают люди», и теперь нужно «построить системы, которые самостоятельно открывают новые знания»; по его словам, для этого требуется иная инфраструктура.

Технические последствия такого сотрудничества связаны с типом опыта, на котором будут учиться агенты: разработчики рассчитывают тренировать модели на «богатых формах опыта», отличных от человеческого языка и других человеческих данных. По оценке сторон, это вероятно приведёт к появлению новых архитектур моделей и алгоритмов обучения, а также к специализированным решениям для хранения и передачи опыта в реальном времени. Если замысел удастся реализовать, корректная инфраструктура откроет возможность беспрецедентного масштабирования обучения с подкреплением в сложных и насыщенных средах. Стороны считают, что это может ускорить обнаружение практических прорывов в разных областях знаний и заложить основу для следующего поколения интеллектуальных систем.

Источники

NVIDIA Blog — AI / Research / Robotics · 5/13/2026

Ответы (0)

Пока нет ответов в этой теме.