GPT-4 լեզվական մոդելը, որն ընկած է պրեմիում դասի ChatGPT չատբոտի հիմքում, այս տարվա հունիսին, մարտի համեմատ, սկսել է բթանալ։ Սթենֆորդի համալսարանի մասնագետների վերջերս կատարած հետազոտությունը ցույց է տվել, որ շատ հարցերի դեպքում մոդելը սկսել է ավելի հաճախ տալ սխալ, քան ճիշտ պատասխաններ:
Հետաքրքիր է, որ միևնույն ժամանակ GPT-3.5 լեզվական մոդելը, ընդհակառակը, առաջադրանքների մեծ մասը սկսել է ավելի լավ կատարել, քան նախկինում:
Գիտնականները չատբոտին տվել են տարբեր հարցեր և գնահատել պատասխանների ճշմարտացիությունը։ Օրինակ՝ արհեստական բանականությունը պետք է պատասխաներ, թե արդյոք 17,077 թիվը պարզ է: Գիտնականները չատբոտին խնդրել են քայլ առ քայլ նկարագրել իր հաշվարկները, որպեսզի ավելի լավ հասկանան արհեստական բանականության «մտածողության» գործընթացը և բարելավեն արդյունքը։ Ինչպես պարզվել է, այս ռեժիմում արհեստական բանականությունը հաճախ ճիշտ է պատասխանում։
Բայցևայնպես, արհեստական բանականությունը շատ հարցերի սխալ է պատասխանել: Եթե դեռ մարտին GPT-4-ը ճիշտ պատասխան էր տվել 97,6%-ի դեպքում, ապա հունիսին այդ ցուցանիշը նվազել է մինչև 2,4%: Ընդ որում, GPT-3.5-ի դեպքում ցուցանիշը 7.4%-ից հասել է 86.8%-ի, այսինքն՝ այն, ի տարբերություն ավելի առաջադեմ տարբերակի, շատ ավելի խելացի է դարձել։
Հետաքրքիր է, որ GTP-4 մոդելի դեպքում վատացել է նաև կոդի ստեղծումը։ Գիտնականները LeetCode-ից 50 պարզ առաջադրանքներով տվյալների հավաքածու են ստեղծել և հաշվել, թե GPT-4-ի պատասխաններից քանիսն են կատարվել առանց որևէ փոփոխության: Մարտի տարբերակը հաջողությամբ կատարել է խնդիրների 52%-ը, սակայն հունիսյան մոդելի համար այդ ցուցանիշը նվազել է մինչև 10%:
Այս խնդիրների պատճառը դեռ պարզ չէ։ Չկա նաև տեղեկություն այն մասին, թե արդյոք այս լեզվական մոդելը մշակող OpenAI ընկերությունը ինչ-որ բան կանի՞ խնդիր շտկելու համար։
ամիս
շաբաթ
օր