Підписуйтеся на наш телеграм канал!
Nvidia навчила роботів тренувати себе самостійно
Вісім роботизованих маніпуляторів у лабораторії Nvidia GEAR кілька тижнів поспіль самостійно навчалися вставляти елементи кріплення, встановлювати відеокарти та розрізати кабельні стяжки. Люди підключилися лише наприкінці — щоб написати наукову статтю.
За цим стоїть ENPIRE — фреймворк, розроблений спільно дослідниками Nvidia, Університету Карнегі-Меллон і Каліфорнійського університету в Берклі. Система передає весь процес навчання роботів ШІ-агентам для написання коду — тим самим, що вже вміють самостійно розробляти й тестувати програми. Принципова відмінність від попередніх підходів: ENPIRE переносить цей цикл із віртуального середовища у фізичний світ, де скинути невдалий експеримент означає буквально перемістити реальний робот.
Система працює у два етапи. Спочатку людина один раз допомагає агенту створити два інструменти: процедуру скидання робочого простору до початкового стану та функцію винагороди, яка аналізує відеозапис і оцінює успішність виконання завдання — своєрідний суддя, що не відволікається й не йде на обід. Після цього агент бере керування повністю: шукає ідеї в наукових публікаціях, обирає між навчанням на прикладах, навчанням із підкріпленням або написаними вручну правилами, переписує код і тестує результат на реальному залізі.
Вісім роботизованих станцій обмінювалися прогресом через Git — той самий інструмент, яким користуються розробники для відправки та збереження коду. Завдяки цьому вдала ідея поширювалася по всьому «флоту» за лічені хвилини. Масштабування з одного робота до восьми скоротило час освоєння тестового завдання Push‑T — переміщення Т‑подібного блоку в цільову зону — з приблизно п’яти годин до двох, а для вставки штирів у отвори діаметром 4 мм — з більш ніж 90 хвилин до близько 40. Загалом на чотирьох реальних завданнях агенти досягли рівня успішності 99%.
Агенти на базі OpenAI Codex, Anthropic Claude Code та Moonshot Kimi Code впоралися із завданнями у симуляторі, однак перехід до фізичного середовища виявився нетривіальним: двоє з трьох агентів не змогли відтворити результат на реальному роботі. Симулятори не знають, що таке тертя. Реальні поверхні — знають.
Наукові керівник лабораторії GEAR і директор з ШІ-досліджень Nvidia Джим Фен назвав проєкт першою в історії спробою запустити AutoResearch у фізичному світі. За його словами, команда надала агентам флот роботів, виділила обчислювальні потужності й токен-бюджет, після чого просто відступила вбік.
ENPIRE розвиває ідею, закладену у Eureka — системі 2023 року, де мовна модель писала функції винагороди для роботів усередині симулятора замість людей-інженерів. Новий фреймворк виходить за межі симуляції й переносить весь цикл самовдосконалення на реальне залізо. Показово, що реліз збігся з анонсом Alibaba власної платформи для втіленого ШІ — Qwen-Robot Suite, набору фундаментальних моделей для навігації роботів, маніпуляцій і фізичного моделювання. Обидві компанії рухаються в одному напрямку: фізичні роботи стають наступним полігоном для змагання ШІ-агентів.
