GPT-5 ԱԲ-ի ուսուցման համար բավարար չեն ողջ համացանցի բարձրորակ տվյալները․ ի՞նչպես են լուծելու խնդիրը

2 ապրիլի, 2024  18:23

Արհեստական բանականության (ԱԲ)​ առաջադեմ մոդելներ մշակողները բախվել են անսպասելի խնդրի՝ ԱԲ մոդելների ուսուցման համար չկա անհրաժեշտ ծավալով որակյալ նյութ։ Իրավիճակը սրվում է նրանով, որ որոշ ռեսուրսներ արգելափակում են ԱԲ-ի հասանելիությունը իրենց տվյալներին։ Հետազոտողների կարծիքով՝ ԱԲ-ն ուսուցանելու փորձերը՝ օգտագործելով այլ մոդելների նյութեր և այլ «սինթետիկ բովանդակություն», կարող են հանգեցնել «մեծ խնդիրների»:

Գիտնականները և ԱԲ զարգացնող ընկերության ղեկավարները մտահոգված են, որ առաջիկա երկու տարում կարող են այլևս չլինել բավարար ծավալի որակյալ տեքստեր, որպեսզի կարողանան շարունակել լեզվական մեծ մոդելների ուսուցանումը, ինչը դանդաղեցնում է ոլորտի առաջընթացը: ChatGPT չատբոտն ստեղծած OpenAI ընկերությունն արդեն դիտարկում է GPT-5-ը YouTube-ում առկա հանրային տեսանյութերի տառադարձման վրա ուսուցանելու հնարավորությունը։

Համացանցի տվյալները

ԱԲ լեզվական մոդելները տեքստը հավաքում են համացանցից՝ գիտական ​​հետազոտություններ, նորություններ, «Վիքիպեդիա»-ի հոդվածներ, և այն բաժանում են առանձին բառերի կամ բառի մասերի, օգտագործելով դրանք, որպեսզի սովորեն պատասխանել ինչպես մարդը։ Որքան շատ լինեն մուտքագրված տվյալները, այնքան լավ է ստացվում արդյունքը. ահա թե ինչի վրա է հիմնվել OpenAI-ը, ինչն էլ օգնել է ընկերությանը դառնալ ոլորտի առաջատարներից մեկը:

Ըստ Epoch Research Institute-ի ԱԲ ոլորտի հետազոտող Պաբլո Վիլալոբոսի՝ GPT-4-ը ուսուցանվել է 12 տրիլիոն թոքեն տվյալների վրա, իսկ GPT-5-ի նման ԱԲ-ի համար անհրաժեշտ է 60-100 տրիլիոն թոքեն: Եթե ​հավաքվեն բոլոր բարձրորակ տեքստային և գրաֆիկական տվյալները, որոնք հասանելի են համացանցում, ապա ևս 10-ից 20 տրիլիոն թոքեն, կամ գուցե ավելի շատ անհրաժեշտ լինի GPT-5-ին ուսուցանելու համար, և դեռ պարզ չէ, թե որտեղից կարելի է դրանք ստանալ: Երկու տարի առաջ Վիլալոբոսը և այլ հետազոտողներ արդեն զգուշացրել էին, որ 2024-ի կեսերին 50% հավանականություն կա, որ ԱԲ-ն այլևս չի ունենա ուսուցման համար բավարար տվյալներ, իսկ մինչև 2026-ը այդ հավանականությունը կհասնի 90%-ի:

Գիտնականների խոսքով՝ համացանցում տվյալների մեծ մասը պիտանի չէ ԱԲ-ի ուսուցման համար, քանի որ դրանք պարունակում են անհամապատասխան տեքստ կամ նոր տեղեկություն չեն ավելացնում առկա տվյալներին: Նյութի միայն մի փոքր մասն է հարմար այդ նպատակի համար՝ մոտ մեկ տասներորդը, որը հավաքել է Common Crawl ոչ առևտրային կազմակերպությունը, որի վեբ արխիվը լայնորեն օգտագործում են ԱԲ մշակողները։

Միևնույն ժամանակ, խոշոր հարթակները, ինչպիսիք են սոցիալական ցանցերը և լրատվամիջոցները, արգելափակում են մուտքը դեպի իրենց տվյալները, իսկ հասարակությունը չի ցանկանում հասանելիություն տրամադրել իր անձնական նամակագրությանը՝ լեզվական մոդելներին ուսուցանելու համար: Մարկ Ցուկերբերգը ԱԲ զարգացման գործում հսկայական առավելություն է համարում այն, որ ԱԲ-ն հասանելիություն ունի Meta-ի հարթակներում առկա տվյալներին, ներառյալ՝ տեքստին, պատկերներին և տեսանյութերին, թեև դժվար է ասել, թե այս նյութի որքան մասը կարելի է որակյալ համարել:

«Ուսումնական պլանի» տեխնիկան և տվյալների շուկան

DatologyAI ստարտափը փորձում է պայքարել բովանդակության պակասի դեմ՝ օգտագործելով «ուսումնական պլանի» տեխնիկան, որի շրջանակում ԱԲ-ին տվյալներով «սնում» են հատուկ կարգով, որն օգնում է կապ հաստատել դրանց միջև: 2022-ին Meta Platform-ի և Google DeepMind-ի նախկին աշխատակից և այժմ DatologyAI-ի հիմնադիր Արի Մորկոսի հրապարակած հոդվածում նշվում է, որ այս մոտեցումը կարող է համեմատելի արդյունքների հասնել ԱԲ-ի ուսուցման մեջ՝ միաժամանակ կիսով չափ կրճատելով մուտքային տվյալները: Այնուամենայնիվ, այլ ուսումնասիրություններ չեն հաստատել այս տվյալները:

Սեմ Ալթմանը ևս հայտարարել է, որ OpenAI-ը նոր մեթոդներ է մշակում ԱԲ-ի ուսուցման համար։ Ըստ տեղեկութունների՝ ընկերությունը քննարկում է տվյալների շուկա ստեղծելու հնարավորությունը, որտեղ կորոշվի յուրաքանչյուր մոդելի համար հատուկ նյութերի արժեքը և դրանց դիմաց վճարվող արդար գինը: Նույն գաղափարը քննարկվում է Google-ում, սակայն այս ուղղությամբ դեռ կոնկրետ առաջընթաց չկա, ուստի ԱԲ մշակող ընկերությունները փորձում են ձեռք բերել այն ամենը, ինչ կարող են, ներառյալ և տեսալսողական նյութերը։ Ըստ OpenAI-ի աղբյուրների՝ նրանք պատրաստվում են դրանք վերծանել խոսքի ճանաչման Whisper գործիքով:

Բարձրորակ սինթետիկ տվյալներ

OpenAI-ի և Anthropic-ի հետազոտողները փորձարկում են, այպես կոչված, «բարձրորակ սինթետիկ տվյալներ»: Վերջերս տված հարցազրույցում Anthropic-ի գլխավոր գիտնական Ջարեդ Կապլանն ասել է, որ «ընկերության ներսում ստեղծվող այսպիսի տվյալները» կարող են օգտակար լինել և օգտագործվել Claude-ի վերջին տարբերակներում: OpenAI-ի խոսնակը նույնպես հաստատել է, որ նման զարգացումներ են արվում։

Շատ հետազոտողներ, որոնք ուսումնասիրում են տվյալների բացի խնդիրը, չեն հավատում, որ կարող են լուծել այն, սակայն Վիլալոբոսը լավատես է և հավատում է, որ առջևում դեռ շատ բացահայտումներ են սպասվում: «Ամենամեծ անորոշությունն այն է, որ մենք չգիտենք, թե դեռ ինչ հեղափոխական բացահայտումներ են սպասվում»,- ասել է նա:

Ըստ Արի Մորկոսի՝ «տվյալների բացակայությունն արդյունաբերության ամենակարևոր խնդիրներից մեկն է»: Սակայն միայն տվյալների պակասը չէ, որ արգելակում է դրա զարգացումը. լեզվական մեծ մոդելներ գործարկելու համար անհրաժեշտ չիպերի պակաս նույնպես կա, իսկ ոլորտի առաջատար ընկերություններին մտահոգում են նաև տվյալների մշակման կենտրոնների և էլեկտրաէներգիայի պակասը:


 
 
 
 
  • Արխիվ