ИИ научил робота балансировать на мяче: Он учит робота лучше, чем человек

8 мая, 2024  12:19

Группа ученых из Пенсильванского университета разработала систему DrEureka для обучения роботов с использованием больших языковых моделей искусственного интеллекта, таких как OpenAI GPT-4. Оказалось, что это более эффективный подход, чем последовательность задач в реальном мире, однако требует особого внимания человека из-за особенностей мышления ИИ.

Платформа DrEureka (Domain Randomization Eureka) продемонстрировала свою эффективность на примере робота Unitree Go1 — четвероногой машины с открытым исходным кодом. Она предполагает обучение робота в симулированной среде с использованием рандомизации основных переменных, таких как коэффициент трения, масса, демпфирование, смещение центра тяжести и другие параметры. На основе нескольких пользовательских запросов ИИ генерирует код, описывающий систему вознаграждений и штрафов для обучения робота в виртуальной среде. По результатам каждой симуляции ИИ анализирует, насколько хорошо виртуальный робот справился с задачей, и как можно улучшить ее выполнение. Важно, что нейросеть способна быстро генерировать сценарии в больших объемах и запускать их выполнение одновременно.

dreureka.jpg (288 KB)

ИИ создает задачи с максимальными и минимальными значениями параметров на точках отказа или поломки механизма, достижение или превышение которых влечет снижение балла за прохождение учебного сценария. Авторы исследования отмечают, что для корректного написания кода ИИ требуются дополнительные инструкции по безопасности, иначе нейросеть начинает "жульничать" в стремлении к максимальной производительности, что может привести к перегреву двигателей или повреждению конечностей робота. В одном из таких неестественных сценариев виртуальный робот "обнаружил", что способен двигаться быстрее, если отключить одну из ног и начать передвигаться на трех.

Исследователи поручили ИИ соблюдать особую осторожность, учитывая, что обученный робот будет проходить испытания в реальном мире. Поэтому нейросеть создала дополнительные функции безопасности для аспектов, таких как плавность движений, горизонтальная ориентация и высота положения туловища, а также учет крутящего момента для электродвигателей — он не должен превышать заданные значения. В результате система DrEureka справилась с обучением робота лучше, чем человек: машина продемонстрировала прирост скорости движения на 34% и увеличение расстояния, преодолеваемого на пересеченной местности, на 20%. Это различие в подходах исследователи объяснили тем, что при обучении человек разбивает задачу на этапы и находит решение для каждого из них, в то время как GPT обучает всему сразу, что человек не в состоянии повторить.

Система DrEureka позволила перейти от симуляции непосредственно к работе в реальном мире. Авторы проекта утверждают, что могли бы дополнительно повысить эффективность работы платформы, если бы смогли предоставить ИИ обратную связь из реального мира — для этого нейросети нужно было бы анализировать видеозаписи испытаний, не ограничиваясь анализом ошибок в системных журналах робота. Среднему человеку требуется до 1,5 лет, чтобы научиться ходить, и лишь немногие способны передвигаться верхом на мяче для йоги. Обученный робот DrEureka эффективно справляется и с этой задачей.


 
 
 
 
  • Архив