Meta-ն ներկայացրել է Llama 3-ը և պնդում է, որ այն բաց կոդով «ամենահզոր» լեզվական մոդելն է

19 ապրիլի, 2024  12:16

Meta-ն ներկայացրել է Llama 3-ը՝ հաջորդ սերնդի լեզվական մեծ մոդելը, որն ընկերությունն անվանում է այս պահին շուկայում առկա բաց կոդով ամենահզոր լեզվական մոդելը։ Ընկերությունը թողարկել է երկու տարբերակ՝ Llama 3 8B և Llama 3 70B, համապատասխանաբար, 8 և 70 միլիարդ պարամետրերով։ Meta-ի տվյալներով՝ արհեստական ​բանականության (ԱԲ) այս նոր մոդելները զգալիորեն գերազանցում են նախորդ սերնդի համապատասխան մոդելներին և ներկայումս առկա գեներատիվ ԱԲ-ի լավագույն մոդելներից են։

Իր պնդումն ապացուցելու համար Meta-ն մեջբերում է հանրահայտ MMLU (գիտելիք), ARC (սովորելու ունակություն) և DROP (տեքստային հատվածների վերլուծություն) թեստերի արդյունքները: Llama 3 8B-ը գերազանցում է իր դասի այլ բաց կոդով մոդելներին, ինչպիսիք են Mistral-ի Mistral 7B-ը և Google-ի Gemma 7B-ը՝ 7 միլիարդ պարամետրով, առնվազն ինը փորձարկումներում՝ MMLU, ARC, DROP, GPQA (կենսաբանություն, ֆիզիկա և քիմիա), HumanEval (կոդի գեներացում), GSM-8K (մաթեմատիկական խնդիրներ), MATH (մաթեմատիկական մեկ այլ թեստ), AGIEval (խնդիրներ լուծելու թեստերի հավաքածու) և BIG-Bench Hard (առողջ տրամաբանության հիման վրա դատողությունների գնահատման թեստ):

Meta Llama 3 - 1.jpg (154 KB)

Mistral 7B-ն և Gemma 7B-ն արդեն դժվար է ժամանակակից անվանվել, մինչդեռ որոշ թեստերում Llama 3 8B-ն էական գերազանցություն չի ցուցաբերում դրանց նկատմամբ: Այնուամենայնիվ, Meta-ն շատ ավելի հպարտ է իր ավելի առաջադեմ մոդելով՝ Llama 3 70B-ով, որին դասում է գեներատիվ ԱԲ-ի այլ առաջատար մոդելների շարքին, ներառյալ Gemini 1.5 Pro-ի, որը Google-ի Gemini շարքի ամենաառաջադեմն է: Llama 3 70B-ը գերազանցում է Gemini 1.5 Pro-ին MMLU, HumanEval և GSM-8K թեստերում, սակայն զիջում է Anthropic-ի առաջատար Claude 3 Opus-ին, հինգ թեստերում (Sonnet-ին՝ MMLU, GPQA, HumanEval, GSM-8K և MATH) հաղթելով միայն շարքի ամենաթույլ մոդելին: Meta-ն նաև մշակել է թեստերի իր փաթեթը (տեքստեր գրելուց և կոդավորումից մինչև ամփոփում և եզրակացություն): Այս հարցում Llama 3 70B-ը հաղթել է Mistral Medium-ին, OpenAI-ի GPT-3.5-ին և Anthropic-ի Claude Sonnet-ին:

Meta Llama 3 - 2.jpg (153 KB)

Ըստ Meta-ի` նոր մոդելներն ավելի կառավարելի են, ավելի քիչ հավանական է, որ հրաժարվեն հարցերին պատասխանելուց և, ընդհանուր առմամբ, ավելի ճշգրիտ տեղեկություն են գեներացնում, այդ թվում գիտական ​​որոշ ոլորտներում, ինչը, հավանաբար, արդարացված է՝ հաշվի առնելով դրանց ուսուցանման համար օգտագործվող տվյալների հսկայական ծավալը՝ 15 տրիլիոն թոքեն և 750 միլիարդ բառ, ինչը յոթ անգամ ավելի է, քան Llama 2-ի դեպքում:

Իսկ որտեղի՞ց այս բոլոր տվյալները Meta-ին։ Ընկերությունը սահմանափակվել է՝ միայն վստահեցնելով, որ դրանք բոլորը վերցված են «հանրային հասանելի աղբյուրներից»: Այնուամենայնիվ, Llama 3 ուսուցման տվյալների հավաքածուն պարունակում էր չորս անգամ ավելի շատ կոդ, քան օգտագործվում էր Llama 2-ի համար, և հավաքածուի 5%-ը բաղկացած էր 30 ոչ անգլալեզու տվյալներից: Բացի դրանից՝ օգտագործվել են սինթետիկ տվյալներ, այսինքն՝ ստացված այլ ԱԲ մոդելներից։

Meta Llama 3 - 3.jpg (132 KB)

«Մեր ներկայիս ԱԲ մոդելները կազմաձևված են միայն անգլերենով պատասխանելու համար, բայց մենք դրանք վարժեցնում ենք այլ լեզուներով տվյալների օգտագործմամբ, որպեսզի ԱԲ-ն կարողանա ավելի լավ ճանաչել նրբերանգներն ու օրինաչափությունները»,- մեկնաբանել է Meta-ն:

Վերջին շրջանում հատկապես հաճախ է արծարծվում արհեստական ​​բանականության հետագա վերապատրաստման համար անհրաժեշտ քանակությամբ տվյալների հարցը, և Meta-ն արդեն հասցրել է փչացնել իր հեղինակությունն այս ոլորտում։ Վերջերս հաղորդվեց, որ մյուս ընկերությունների հետ մրցակցելու համար Meta-ն հեղինակային իրավունքով պաշտպանված էլեկտրոնային գրքերի ինֆորմացիան տրամադրում է ԱԲ-ին, թեև ընկերության իրավաբանները նախազգուշացրել են հնարավոր հետևանքների մասին:

Ինչ վերաբերում է անվտանգությանը, ապա Meta-ն անվտանգության մի քանի արձանագրություններ է ներդրել իր նոր սերնդի ԱԲ մոդելներում, ինչպիսիք են Llama Guard-ը և CybersecEval-ը՝ ԱԲ-ի չարաշահման դեմ պայքարելու համար: Ընկերությունը նաև թողարկել է Code Shield կոչվող հատուկ գործիք՝ վերլուծելու համար բաց գեներատիվ ԱԲ մոդելների կոդի անվտանգությունը, որը հնարավորություն է տալիս բացահայտել հնարավոր խոցելիությունները: Հայտնի է, որ նախկինում այս նույն արձանագրությունները չէին կանխում Llama 2-ի կողմից սխալ պատասխանների և անձնական բժշկական և ֆինանսական տեղեկությունների տրամադրումը։

Meta Llama 3 - 4.jpg (165 KB)

Սա դեռ ամենը չէ: Meta-ն ուսուցանում է Llama 3 մոդելը 400 միլիարդ պարամետրով. այն կկարողանա խոսել տարբեր լեզուներով և ընդունել ավելի շատ մուտքային տվյալներ, ներառյալ պատկերների հետ աշխատելը: «Մենք ձգտում ենք Llama 3-ը դարձնել բազմալեզու և բազմամոդալ մոդել, որը կարող է հաշվի առնել ավելի շատ համատեքստ: Մենք նաև փորձում ենք բարելավել նրա կատարողականը և ընդլայնել լեզվական մոդելի հնարավորությունները դատողությունների և կոդ գրելու հարցում»,- ասել է Մետան:


 
 
 
 
  • Արխիվ