Ճանաչել սարկազմը և կոտրել ԱԲ այլ մոդելների պաշտպանությունը. ի՞նչ նոր հմտություններ են յուրացրել նեյրոցանցերը

29 դեկտեմբերի, 2023  16:20

Վերջերս արհեստական ​բանականության (ԱԲ) համակարգերն սկսել են ավելի լավ հասկանալ տեղեկատվության համատեքստը, ինչպես նաև սովորել են կոտրել արհեստական ​բանականությամբ աշխատող այլ համակարգերի պաշտպանությունը: Այս մասին ասվում է Computer Science (CS) գիտական ​​ամսագրում հրապարակված հետազոտության մեջ։

Հեգնանք և սարկազմ. հիմա ոչ միայն մարդիկ կարող են հասկանալ դրանք

Նյու Յորքի համալսարանի հետազոտողները լեզվական մեծ մոդելների վրա (LLM) հիմնված նեյրոցանցերին ուսուցանել են, որպեսզի ճանաչեն սարկազմն ու հեգնանքը մարդկանց կողմից ստեղծված տեքստերում:

Այսօր մի քանի LLM մոդելներ կարող են մշակել տեքստեր և հասկանալ դրանց հիմքում ընկած էմոցիոնալ երանգը՝ անկախ նրանից, թե այդ տեքստերն արտահայտում են դրակա՞ն, բացասակա՞ն, թե չեզոք զգացմունքներ: Այս մոդելները սովորաբար սարկազմը և հեգնանքը սխալմամբ դասակարգվում էին որպես «դրական»։

Գիտնականները հայտնաբերել են գործառույթներ և ալգորիթմական բաղադրիչներ, որոնք կարող են օգնել արհեստական բանականությանն ավելի լավ հասկանալ ասվածի իրական իմաստը: Հետո նրանք փորձարկել են իրենց աշխատանքը RoBERTa և CASCADE LLM մոդելների վրա՝ դրանց օգնությամբ փորձարկելով Reddit ֆորումի մեկնաբանությունների վրա։ Պարզվել է, որ նեյրոցանցերը սովորել են ճանաչել սարկազմը գրեթե այնպես, ինչպես սովորական մարդը:

Չատբոտը կոտրում է այլ ԱԲ-ի պաշտպանությունը

Իր հերթին, Սինգապուրի Նանյան տեխնոլոգիական համալսարանի (NTU) հետազոտողներին հաջողվել է կոտրել ԱԲ-ով աշխատող մի քանի չատբոտերի, այդ թվում՝ ChatGPT-ի, Google Bard-ի և Microsoft Copilot-ի անվտանգությունը՝ շրջանցելով դրանց էթիկական սահմանափակումները և ստիպելով ստեղծել բովանդակություն՝ հակառակ ներկառուցված սահմանափակումների:

Գիտնականները վարժեցրել են իրենց սեփական նեյրոցանցը՝ հիմնված LLM մոդելի վրա, որն ընկած է խելացի չատբոտերի հիմքում: Նրանք նաև ստեղծել են Masterkey կոչվող ալգորիթմը, որն ինքն է անում հուշումներ, որոնք թույլ էին տալիս շրջանցել ԱԲ-ով աշխատող հայտնի նեյրոցանցերի մշակողների սահմանափակումները: Այս արգելքներն անհրաժեշտ են, որպեսզի չատբոտերը մարդկանց չօգնեն վիրուսներ գրել, պայթուցիկ սարքեր կամ թմրանյութեր պատրաստել և այլն:

«ԱԲ ծառայությունների մշակողները պաշտպանական շերտեր ունեն, որպեսզի կանխեն բռնի, ոչ էթիկական կամ հանցավոր բովանդակության ստեղծումն ԱԲ-ի միջոցով: Բայց արհեստական բանականության հարցում կարելի է խորամանկություն անել, և այժմ մենք արհեստական բանականությունն օգտագործել ենք իր իսկ տեսակի դեմ՝ LLM մոդելների «կոտրելու» համար և նրանց ստիպելու, որպեսզի ստեղծեն նման բովանդակություն»,- բացատրել է ուսումնասիրությունը ղեկավարող պրոֆեսոր Լյու Յանը:

Արհեստական բանականությունից արգելված տեղեկություն ստանալու համար ստեղծվել են հարցումներ, որոնք շրջանցում են ծրագրում ներկառուցված էթիկական սահմանափակումները և որոշ բառերի գրաքննությունը:

Մասնագետների կարծիքով՝ Masterkey-ն կօգնի ավելի արագ բացահայտել նեյրոցանցերի անվտանգության թույլ կողմերը, քան հաքերները կարող են անել անօրինական նպատակներով:


 
 
 
 
  • Արխիվ