Արհեստական բանականության (ԱԲ) առաջադեմ մոդելներ մշակողները բախվել են անսպասելի խնդրի՝ ԱԲ մոդելների ուսուցման համար չկա անհրաժեշտ ծավալով որակյալ նյութ։ Իրավիճակը սրվում է նրանով, որ որոշ ռեսուրսներ արգելափակում են ԱԲ-ի հասանելիությունը իրենց տվյալներին։ Հետազոտողների կարծիքով՝ ԱԲ-ն ուսուցանելու փորձերը՝ օգտագործելով այլ մոդելների նյութեր և այլ «սինթետիկ բովանդակություն», կարող են հանգեցնել «մեծ խնդիրների»:
Գիտնականները և ԱԲ զարգացնող ընկերության ղեկավարները մտահոգված են, որ առաջիկա երկու տարում կարող են այլևս չլինել բավարար ծավալի որակյալ տեքստեր, որպեսզի կարողանան շարունակել լեզվական մեծ մոդելների ուսուցանումը, ինչը դանդաղեցնում է ոլորտի առաջընթացը: ChatGPT չատբոտն ստեղծած OpenAI ընկերությունն արդեն դիտարկում է GPT-5-ը YouTube-ում առկա հանրային տեսանյութերի տառադարձման վրա ուսուցանելու հնարավորությունը։
ԱԲ լեզվական մոդելները տեքստը հավաքում են համացանցից՝ գիտական հետազոտություններ, նորություններ, «Վիքիպեդիա»-ի հոդվածներ, և այն բաժանում են առանձին բառերի կամ բառի մասերի, օգտագործելով դրանք, որպեսզի սովորեն պատասխանել ինչպես մարդը։ Որքան շատ լինեն մուտքագրված տվյալները, այնքան լավ է ստացվում արդյունքը. ահա թե ինչի վրա է հիմնվել OpenAI-ը, ինչն էլ օգնել է ընկերությանը դառնալ ոլորտի առաջատարներից մեկը:
Ըստ Epoch Research Institute-ի ԱԲ ոլորտի հետազոտող Պաբլո Վիլալոբոսի՝ GPT-4-ը ուսուցանվել է 12 տրիլիոն թոքեն տվյալների վրա, իսկ GPT-5-ի նման ԱԲ-ի համար անհրաժեշտ է 60-100 տրիլիոն թոքեն: Եթե հավաքվեն բոլոր բարձրորակ տեքստային և գրաֆիկական տվյալները, որոնք հասանելի են համացանցում, ապա ևս 10-ից 20 տրիլիոն թոքեն, կամ գուցե ավելի շատ անհրաժեշտ լինի GPT-5-ին ուսուցանելու համար, և դեռ պարզ չէ, թե որտեղից կարելի է դրանք ստանալ: Երկու տարի առաջ Վիլալոբոսը և այլ հետազոտողներ արդեն զգուշացրել էին, որ 2024-ի կեսերին 50% հավանականություն կա, որ ԱԲ-ն այլևս չի ունենա ուսուցման համար բավարար տվյալներ, իսկ մինչև 2026-ը այդ հավանականությունը կհասնի 90%-ի:
Գիտնականների խոսքով՝ համացանցում տվյալների մեծ մասը պիտանի չէ ԱԲ-ի ուսուցման համար, քանի որ դրանք պարունակում են անհամապատասխան տեքստ կամ նոր տեղեկություն չեն ավելացնում առկա տվյալներին: Նյութի միայն մի փոքր մասն է հարմար այդ նպատակի համար՝ մոտ մեկ տասներորդը, որը հավաքել է Common Crawl ոչ առևտրային կազմակերպությունը, որի վեբ արխիվը լայնորեն օգտագործում են ԱԲ մշակողները։
Միևնույն ժամանակ, խոշոր հարթակները, ինչպիսիք են սոցիալական ցանցերը և լրատվամիջոցները, արգելափակում են մուտքը դեպի իրենց տվյալները, իսկ հասարակությունը չի ցանկանում հասանելիություն տրամադրել իր անձնական նամակագրությանը՝ լեզվական մոդելներին ուսուցանելու համար: Մարկ Ցուկերբերգը ԱԲ զարգացման գործում հսկայական առավելություն է համարում այն, որ ԱԲ-ն հասանելիություն ունի Meta-ի հարթակներում առկա տվյալներին, ներառյալ՝ տեքստին, պատկերներին և տեսանյութերին, թեև դժվար է ասել, թե այս նյութի որքան մասը կարելի է որակյալ համարել:
DatologyAI ստարտափը փորձում է պայքարել բովանդակության պակասի դեմ՝ օգտագործելով «ուսումնական պլանի» տեխնիկան, որի շրջանակում ԱԲ-ին տվյալներով «սնում» են հատուկ կարգով, որն օգնում է կապ հաստատել դրանց միջև: 2022-ին Meta Platform-ի և Google DeepMind-ի նախկին աշխատակից և այժմ DatologyAI-ի հիմնադիր Արի Մորկոսի հրապարակած հոդվածում նշվում է, որ այս մոտեցումը կարող է համեմատելի արդյունքների հասնել ԱԲ-ի ուսուցման մեջ՝ միաժամանակ կիսով չափ կրճատելով մուտքային տվյալները: Այնուամենայնիվ, այլ ուսումնասիրություններ չեն հաստատել այս տվյալները:
Սեմ Ալթմանը ևս հայտարարել է, որ OpenAI-ը նոր մեթոդներ է մշակում ԱԲ-ի ուսուցման համար։ Ըստ տեղեկութունների՝ ընկերությունը քննարկում է տվյալների շուկա ստեղծելու հնարավորությունը, որտեղ կորոշվի յուրաքանչյուր մոդելի համար հատուկ նյութերի արժեքը և դրանց դիմաց վճարվող արդար գինը: Նույն գաղափարը քննարկվում է Google-ում, սակայն այս ուղղությամբ դեռ կոնկրետ առաջընթաց չկա, ուստի ԱԲ մշակող ընկերությունները փորձում են ձեռք բերել այն ամենը, ինչ կարող են, ներառյալ և տեսալսողական նյութերը։ Ըստ OpenAI-ի աղբյուրների՝ նրանք պատրաստվում են դրանք վերծանել խոսքի ճանաչման Whisper գործիքով:
OpenAI-ի և Anthropic-ի հետազոտողները փորձարկում են, այպես կոչված, «բարձրորակ սինթետիկ տվյալներ»: Վերջերս տված հարցազրույցում Anthropic-ի գլխավոր գիտնական Ջարեդ Կապլանն ասել է, որ «ընկերության ներսում ստեղծվող այսպիսի տվյալները» կարող են օգտակար լինել և օգտագործվել Claude-ի վերջին տարբերակներում: OpenAI-ի խոսնակը նույնպես հաստատել է, որ նման զարգացումներ են արվում։
Շատ հետազոտողներ, որոնք ուսումնասիրում են տվյալների բացի խնդիրը, չեն հավատում, որ կարող են լուծել այն, սակայն Վիլալոբոսը լավատես է և հավատում է, որ առջևում դեռ շատ բացահայտումներ են սպասվում: «Ամենամեծ անորոշությունն այն է, որ մենք չգիտենք, թե դեռ ինչ հեղափոխական բացահայտումներ են սպասվում»,- ասել է նա:
Ըստ Արի Մորկոսի՝ «տվյալների բացակայությունն արդյունաբերության ամենակարևոր խնդիրներից մեկն է»: Սակայն միայն տվյալների պակասը չէ, որ արգելակում է դրա զարգացումը. լեզվական մեծ մոդելներ գործարկելու համար անհրաժեշտ չիպերի պակաս նույնպես կա, իսկ ոլորտի առաջատար ընկերություններին մտահոգում են նաև տվյալների մշակման կենտրոնների և էլեկտրաէներգիայի պակասը:
ամիս
շաբաթ
օր