Որքա՞ն իրական կարող է լինել վիրտուալ ավատարը․ այն շրջանցել է բանկի պաշտպանությունը և խաբել իրական մարդկանց

1 մայիսի, 2023  20:08

Որքա՞ն իրական և որքանով իրական մարդուն նման կարող է լինել արհեստական բանականության միջոցով ստեղծված թվային ավատարը: Կարո՞ղ է այն խաբել բանկերի և այլ ձեռնարկությունների պաշտպանիչ մեխանիզմներին։ Կարո՞ղ է այն խաբել իրական մարդկանց:

The Wall Street Journal-ի սյունակագիր Ջոաննա Սթերնը փորձել է պարզել դա, և արդյունքն ավելի վախեցնող է եղել, քան նա կարող էր պատկերացնել:

Synthesia գործիք միջոցով Ջոաննան ստեղծել է իր վիրտուալ ավատարը։ Այս գործիքը, ըստ մշակողների, կարող է ստեղծել վիդեո ավատարներ՝ հիմնված իրական մարդկանց վիդեո և աուդիո ձայնագրությունների վրա։ Եվ այս ավատարը կկրկնի օգտագործողի մուտքագրած ցանկացած տեքստ: Վիրտուալ ավատարի ստեղծման և սպասարկման համար ստարտափը տարեկան գանձում է $1000:

Ալգորիթմի ուսուցման համար օգտագործվել է Ջոաննայի մասնակցությամբ 30 րոպե տևողությամբ վիդեո և նրա ձայնի մոտ երկու ժամ տևողությամբ ձայնագրություններ։ Երբ ավատարը պատրաստ է եղել, Ջոաննան ChatGPT-ի միջոցով ստեղծել է տեքստ iOS-ի մասին TikTok-յան  տեսանյութի համար և այն վերբեռնել է իր ավատարի վրա, որն այնուհետև ստեղծել է պատրաստի տեսանյութը: Ջոաննայի խոսքով՝ երբ ինքը դիտել է տեսանյութը, իրեն թվացել է, թե հայելու մեջ տեսնում է իր արտացոլանքը։

Առայժմ այս տեխնոլոգիան, իհարկե, կատարյալ չէ: Կարճ նախադասություններ արտասանելիս ավատարը բավական համոզիչ է թվում, գրեթե իրական մարդու նման, բայց երբ այն պետք է ավելի երկար արտահայտություններ արտասանի, պարզ է դառնում, որ այն մարդ չէ։ TikTok-ում ոմանք նույնիսկ նկատել են դա, թեև համարվում է, որ այս հարթակի օգտատերերն այնքան էլ ուշադիր չեն:

Google Meet-ում տեսազանգերի ժամանակ թվային ավատար օգտագործելու փորձի ժամանակ ևս խնդիր է հայտնաբերվել․ ավատարը մշտապես պահում է կատարյալ կեցվածք և գործնականում չի շարժվում՝ ի տարբերություն իրական մարդկանց:

Այնուամենայնիվ, չնայած այս բոլոր խնդիրներին, վիդեո ավատարը շուտով կդառնա ավելի առաջադեմ. Synthesia-ն արդեն մշակման փուլում ունի մի քանի բետա տարբերակներ, որոնք կարող են գլխով հավանության նշան տալ, բարձրացնել և իջեցնել հոնքերը և կատարել մարդուն բնորոշ այլ շարժումներ:

Ջոաննան նաև փորձարկել է ձայնային կլոն, որը ստեղծվել է ElevenLabs-ի գեներատիվ ԱԲ ալգորիթմով: Նա ներբեռնել է իր ձայնի՝ մոտ 90 րոպե տևողությամբ ձայնագրություններ, և երկու րոպեից պակաս ժամանակում ձայնային կլոնն արդեն պատրաստ է եղել։ Այս աուդիո ավատարը կարող է ցանկացած տեքստ վերարտադրել օգտատիրոջ ձայնով: Ձայնային կլոն ստեղծելու համար ElevenLabs-ը գանձում է ամսական սկսած 5 դոլարից:

Պարզվել է, որ աուդիո կլոնն այս փուլում ավելի շատ նման է իրական մարդու, քան վիդեո կլոնը: Աուդիո կլոնի խոսքում կա ինտոնացիա, և այն տեքստը վերարտադրում է ավելի սահուն և բնական կերպով:

Ձայնային կլոնը զանգահարել է նաև Ջոաննայի հորը՝ խնդրելով սոցիալական ապահովության համարն ասել: Հայրը, սակայն, արագ նկատել է, որ դա Ջոաննայի ձայնը չէ, այլ ձայնագրություն է։

Ձայնային կլոնը ևս մեկ զանգ կատարել է Chase Bank-ի աջակցության ծառայություն: Ալգորիթմը նախապես իմացել է, թե ինչ հարցերի պետք է պատասխանի բանկի ձայնային նույնականացման գործընթացում։ Կարճ զրույցից հետո ձայնային կլոնին միացրել են բանկի ներկայացուցչին, քանի որ բանկի ձայնային նույնականացման համակարգը չի կարողացել տարբերակել, որ իր հետ խոսում է ոչ թե Ջոաննան, այլ նրա ձայնի կլոնը։

Ավելի ուշ Chase-ի խոսնակն ասել է, որ բանկը ձայնային նույնականացումն օգտագործում է հաճախորդների նույնականացման այլ գործիքների հետ մեկտեղ։ Նա ընդգծել է, որ ձայնի նույնականացումը հնարավորություն է տալիս շփվել աջակցության ծառայության աշխատողի հետ, սակայն այն չի կարող օգտագործվել գործարք իրականացնելու կամ ֆինանսական այլ գործառնություն իրականացնելու համար։

Ձայնային կլոն ստեղծելու համար բավական է մի քանի աուդիո ձայնագրություն ներբեռնել ծառայություն և համաձայնել հարթակի կանոններին, ըստ որոնց՝ օգտատերը պարտավորվում է չօգտագործել ալգորիթմը կեղծարարությունների նպատակներով։ Բայց պարզվում է, որ ցանկացած մարդ ցանկության դեպքում հեշտությամբ կարող է ստեղծել իր ընկերների կամ հայտնի մարդկանց ձայնը։

ElevenLabs-ի ներկայացուցիչների խոսքով՝ ընկերությունը միայն վճարովի օգտահաշիվների սեփականատերերին է թույլ տալիս կլոնավորել իրենց ձայնը, իսկ հարթակի քաղաքականության խախտման դեպքում նրա օգտահաշիվը կարգելափակվի։ Բացի դրանից, մշակողները նախատեսում են թողարկել նոր ծառայություն, որը կկարողանա ստուգել ցանկացած աուդիո ձայնագրություն և պարզել՝ արդյո՞ք դրանց ստեղծման ժամանակ օգտագործվել է ElevenLabs-ի ալգորիթմը։

Այս փորձի արդյունքում Ջոաննան եկել է այն եզրակացության, որ իր օգտագործած ալգորիթմներից ոչ մեկը դեռ չի կարող ստեղծել պատճեն, որը չի տարբերվում բնօրինակից։ ChatGPT-ն ստեղծել է տեքստ առանց լրագրողի գիտելիքների և փորձի: Synthesia ծառայությունը ստեղծել է ավատար, որը, թեև նման է մարդուն, սակայն դեռ չի կարող փոխանցել իրական մարդուն բնորոշ բոլոր հատկանիշները։ Վերջապես, ElevenLabs համակարգը ստեղծում է մարդու խոսքին շատ նման խոսք, բայց դա նույնպես կատարյալ չէ, համենայն դեպս դեռ:

Բայց հնարավոր է, որ մոտ ապագայում ԱԲ տեխնոլոգիաների զարգացման շնորհիվ հայտնվեն վիրտուալ ավատարներ, որոնք հնարավոր չլինի տարբերել իրական մարդկանցից։ 


 
 
 
 
  • Արխիվ