ԱԲ-ն ռոբոտին սովորեցրել է հավասարակշռություն պահել գնդակի վրա․ այն ավելի լավ է ուսուցանում ռոբոտին, քան մարդը

8 մայիսի, 2024  12:19

Փենսիլվանիայի համալսարանի մի խումբ գիտնականներ մշակել են DrEureka կոչվող համակարգ, որը նախատեսված է արհեստական ​​բանականության՝ OpenAI ընկերության GPT-4-ի նման խոշոր մոդելների կիրառմամբ ռոբոտներին վարժեցնելու համար: Պարզվում է՝ այս համակարգը ռոբոտներին ավելի արդյունավետ է ուսուցանում, քան մարդը։

DrEureka (Domain Randomization Eureka) հարթակն ապացուցել է իր ֆունկցիոնալությունը բաց կոդով չորսոտանի Unitree Go1 ռոբոտի օրինակով: Այն ներառում է ռոբոտի վարժեցում սիմուլյացիոն միջավայրում՝ կիրառելով հիմնական փոփոխականների պատահականացումը՝ շփում, զանգված, խոնավացում, ծանրության կենտրոնի տեղաշարժ և այլ պարամետրեր: Օգտատերերի մի քանի հարցումների հիման վրա ԱԲ-ն ստեղծել է կոդ, որը նկարագրում է պարգևների և տույժերի համակարգը՝ ռոբոտին վիրտուալ միջավայրում ուսուցանելու համար: Յուրաքանչյուր սիմուլյացիայի վերջում ԱԲ-ն վերլուծում է, թե որքան լավ է վիրտուալ ռոբոտը կատարել հաջորդ առաջադրանքը, և ինչպես կարող է բարելավվել դրա կատարումը: Կարևոր է, որ նեյրոցանցն ի վիճակի լինի արագ գեներացնել մեծ թվով սցենարներ և դրանց կատարումը գործարկել միաժամանակ:  

dreureka.jpg (288 KB)

ԱԲ-ն մեխանիզմի ձախողման կամ խափանման կետերում համակարգը ստեղծում է պարամետրերի առավելագույն և նվազագույն արժեքներով առաջադրանքներ, որոնց կատարումը կամ գերազանցումը ենթադրում է ուսուցման սցենարն անցնելու համար տրվող միավորի նվազում: Հետազոտության հեղինակները նշում են, որ ԱԲ կոդը ճիշտ գրելու համար անհրաժեշտ են անվտանգության լրացուցիչ հրահանգներ, հակառակ դեպքում նեյրոնային ցանցն սկսում է «խաբել» սիմուլյացիայի ժամանակ՝ փորձելով հասնել առավելագույն արդյունավետության, ինչն իրական աշխարհում կարող է հանգեցնել շարժիչների գերտաքացման կամ ռոբոտի վերջույթների վնասման։ Այս անբնական սցենարներից մեկում վիրտուալ ռոբոտը «բացահայտել է», որ կարող է ավելի արագ շարժվել, եթե անջատի իր ոտքերից մեկը և սկսի շարժվել երեք ոտքով:

Հետազոտողները ԱԲ-ին հանձնարարել են առանձնապես զգույշ լինել՝ հաշվի առնելով, որ վարժեցված ռոբոտը փորձարկվելու է իրական աշխարհում, ուստի նեյրոցանցն ստեղծել է անվտանգության լրացուցիչ գործառույթներ այնպիսի ասպեկտների համար, ինչպիսիք են շարժումների սահունությունը, հորիզոնական կողմնորոշումը և մարմնի բարձրությունը, ինչպես նաև հաշվի է առնվում էլեկտրական շարժիչների պտտման պահը․ այն չպետք է գերազանցի տրված արժեքները: Արդյունքում DrEureka համակարգը կարողացել է ավելի լավ վարժեցնել ռոբոտին, քան մարդը. մեքենան գրանցել է շարժման արագության 34% աճ և անհարթ տեղանքով անցած տարածության 20% աճ: Հետազոտողներն այս արդյունքը բացատրել են մոտեցումների տարբերությամբ։ Առաջադրանքը ռոբոտին ուսուցանելիս մարդն այն բաժանում է մի քանի փուլերի և լուծում գտնում դրանցից յուրաքանչյուրի համար, մինչդեռ GPT-ն ամեն ինչ սովորեցնում է միանգամից, իսկ մարդը ակնհայտորեն չի կարող դա անել։

Արդյունքում DrEureka համակարգը հնարավորություն է տվել սիմուլյացիայից ուղղակիորեն անցնել իրական աշխարհում աշխատանքի: Նախագծի հեղինակները պնդում են, որ իրենք կարող են էլ ավելի բարելավել հարթակի արդյունավետությունը, եթե կարողանային ԱԲ-ին տրամադրել հետադարձ կապ իրական աշխարհից. դրա համար նեյրոցանցը պետք է ուսումնասիրի թեստերի տեսագրությունները՝ չսահմանափակվելով ռոբոտի համակարգի գրանցամատյաններում առկա սխալների վերլուծությամբ: Միջին վիճակագրական մարդուց մինչև 1,5 տարի է պահանջվում քայլել սովորելու համար, և միայն քչերն են կարողանում գնդակի վրա քայլել, ինչպես արվում է յոգայի ժամանակ: DrEureka-ի ուսուցանած ռոբոտն արդյունավետ կատարում է նաև այս առաջադրանքը։


 
  • Ամենաընթերցվածը

ամիս

շաբաթ

օր

 
 
 
 
  • Արխիվ