30 անգամ արագացնել նեյրոցանցերով պատկերների ստեղծումը և 6 անգամ նվազեցնել լեզվական մեծ մոդելների ուսուցման ծախսերը. ԱԲ ոլորտի վերջին աշխատանքները

27 մարտի, 2024  19:13

Գիտնականներն ու ինժեներները գտել են ձևը, թե ինչպես կարելի է գրեթե 30 անգամ արագացնել նեյրոցանցերով պատկերների ստեղծումը և զգալիորեն նվազեցնել SSD-ների կիրառմամբ լեզվական մեծ մոդելների ուսուցման ծախսերը: Ակնկալվում է, որ այս զարգացումներն արհեստական բանականությունն (ԱԲ) էլ ավելի հասանելի կդարձնեն ինչպես լայն հանրության, այնպես էլ մասնագետների համար, որոնք օգտագործում են այդ տեխնոլոգիաներն իրենց աշխատանքում:

Պատկերի ստեղծում՝ 2590-ից 90 միլիվայրկյանում

ԱՄՆ Մասաչուսեթսի տեխնոլոգիական ինստիտուտի հետազոտողները մշակել են մեթոդ, որը կոչվում է բաշխման համապատասխանության զտում (Distribution Matching Distillation, DMD). այն ԱԲ-ի նոր մոդելներին սովորեցնում է ընդօրինակել առկա պատկերի գեներատորները՝ հայտնի որպես դիֆուզիոն մոդելներ (օրինակ՝ DALL-E 3, Midjourney և Stable Diffusion): Այս կառուցվածքը հնարավորություն է տալիս ստեղծել ավելի կոմպակտ ԱԲ մոդելներ, որոնք կարող են պատկերներ ստեղծել տեքստային հարցումներից շատ ավելի արագ՝ առանց որակի կորստի:

Դիֆուզիոն մոդելների պատկերման գործընթացը սովորաբար ներառում է մինչև 100 քայլ: Գիտնականներին, սակայն, հաջողվել է կրճատել գործողությունների թիվը մինչև մեկի, ինչի արդյունքում ԱԲ-ն պատկեր ստեղծելու համար 2,59 վայրկյանի փոխարեն ծախսել է ընդամենը 90 միլիվայրկյան, այսինքն՝ աշխատանքը կատարել է 28,8 անգամ ավելի արագ։

DMD-ն բաղկացած է երկու բաղադրիչից, որոնք նվազեցնում են մոդելի կողմից պահանջվող իտերացիաների քանակը՝ նախքան այն նորմալ պատկեր կստեղծի: Այս մոտեցման օգտագործումը նաև զգալիորեն կնվազեցնի պատկերի գեներատորի համար պահանջվող հաշվողական հզորությունը:

«Իտերացիաների քանակի կրճատումը եղել է դիֆուզիոն մոդելների Սուրբ Գրաալը դրանց ստեղծման հենց սկզբից»,- ասել է arXiv ամսագրում հրապարակված հոդվածի համահեղինակ, էլեկտրատեխնիկայի և համակարգչային գիտության պրոֆեսոր Ֆեդրո Դյուրանը:  

Ավելի էժան ուսուցում լեզվական մեծ մոդելների համար

Phison-ն իր հերթին ցուցադրել է չորս գրաֆիկական պրոցեսորներով աշխատանքային կայան, որոնց կատարողականը բավարար է 70 միլիարդ պարամետրով ԱԲ մոդել ուսուցանելու համար։ Նորմալ պայմաններում նման առաջադրանքի համար պահանջվում է վեց սերվեր՝ 24 Nvidia H100 արագացուցիչով և 1,4 ՏԲ տեսահիշողությամբ, սակայն այս դեպքում պահանջվող կատարողականի հասնել հնարավոր է դարձել SSD ռեսուրսների և համակարգային DRAM-ի օգտագործմամբ։

Ինչպես գրում է Tom’s Hardware-ը, Phison-ի aiDaptiv+ պլատֆորմն օգնում է նվազեցնել ԱԲ-ի լեզվական մեծ մոդելներն ուսուցանելու համար անհրաժեշտ ռեսուրսների քանակը՝ համակարգի հիշողությունը և SSD-ները օգտագործելու շնորհիվ, որպեսզի մեծացվի գրաֆիկական քարտերին հասանելի հիշողության ծավալը: Եվ այս լուծումը կարող է օգնել ընկերություններին, որպեսզի էապես նվազեցնի ԱԲ-ի ուսուցման ծախսերը: Ավելին, դա կարող է օգնել՝ խուսափելու գրաֆիկական քարտերիի պակասից (և գների բարձրացումից), խնդիրներ, որոնք այսօր արդեն սպառնում են ոլորտին:

Մասնագետների առաջարկած համակարգի կատարողական հնարավորությունները, այդուհանդերձ, դեռ զիջում են սերվերային թանկարժեք լուծումներին։ Սակայն դա թույլ է տալիս ՓՄՁ-ներին գործարկել առաջադեմ մոդելներ տեղական մակարդակում՝ պահպանելով տվյալների գաղտնիությունը և խնայելով գումար, իհարկե, եթե նրանք բավարար ժամանակ ունեն մոդելին ուսուցանելու համար:

Համակարգի աշխատանքը ցուցադրելու համար օգտագործվել է Maingear Pro AI աշխատանքային կայան՝ Intel Xeon W7-3445X պրոցեսորով, 512 ԳԲ DDR5-5600 հիշողությամբ և երկու Phison aiDaptiveCache ai100E 2 TB M.2 կոշտ կրիչներով, որոնք նախատեսված են հինգ տարի օրական 100 վերաձայնագրման ցիկլերի համար: Phison-ի aiDaptiv+ ծրագրային լուծումը վիդեո հիշողությունից հանում է ԱԲ մոդելի շերտերը, որոնք ներկայումս ակտիվորեն չեն մշակվում և դրանք ուղարկում է համակարգի հիշողություն. բոլոր անհրաժեշտ տեղեկությունները մնում են այստեղ, և ցածր առաջնահերթության տվյալները փոխանցվում են կոշտ կրիչներ: Ըստ անհրաժեշտության՝ դրանք տեղափոխվում են գրաֆիկական քարտի վիդեո հիշողություն, որտեղ մշակվում են, իսկ արդեն մշակված տվյալներն ուղարկվում են DRAM և SSD:

Maingear Pro AI աշխատանքային կայանը թողարկվում է մի քանի տարբերակով՝ սկսած 28,000 դոլարից մեկ Nvidia RTX 6000 Ada A100 գրաֆիկական արագացուցիչով տարբերակի համար և մինչև 60,000 դոլար՝ չորս GPU-ով տարբերակի համար:

Phison aiDaptiv+-ն աշխատում է Pytorch/Tensor Flow-ի հետ և չի պահանջում ԱԲ հավելվածների փոփոխում: Նման կարգաբերման համար ԱԲ ուսուցումը կպահանջի վեց անգամ ավելի քիչ ծախս, քան 30 ԱԲ արագացուցիչներով ութ կլաստերների համար: Սակայն, միևնույն ժամանակ, ուսուցումը կտևի մոտ չորս անգամ ավելի երկար։

Այնուամենայնիվ, հորիզոնական մասշտաբայնացմամբ չորս աշխատանքային կայանների գործարկման դեպքում 70 միլիարդ պարամետրերով մոդելի ուսուցանումը կտևի մոտ 1,2 ժամ, իսկ ԱԲ 30 արագացուցիչներով համակարգը կիրականացնի այս ուսուցումը 0,8 ժամում։


 
 
 
 
  • Արխիվ