Meta-ն բաց կոդով ԱԲ մոդել է թողարկել, որը 4000 լեզվի աջակցութուն ունի

23 մայիսի, 2023  20:08

Meta-ն թողարկել է Massively Multilingual Speech (MMS) կոչվող արհեստական բանականության մոդելը, որը ճանաչում է մարդու խոսքը 4000 լեզվով և վերարտադրում այն։ Նոր նոդելը նաև տեքստը փոխակերպում է խոսքի ավելի քան 1100 լեզվով:

Խոսքը ճանաչող և այն տեքստի վերածող մոդելներին սովորաբար ուսուցանում են մի քանի հազար ժամ աուդիո ձայնագրությունների հիման վրա՝ տեքստի սղագրությամբ և նշումներով: Բայց խնդիրը շատ ավելի բարդ է դառնում այն ​​լեզուների համար, որոնք չեն օգտագործվում արդյունաբերական աշխարհում. դրանց համար ավանդական ձևաչափով սկզբնաղբյուր տվյալներ պարզապես գոյություն չունեն, բացատրել են ընկերությունից։ Ինչպես տեղեկացնում է Engadget.com-ը, այս խնդրի հարցում Meta-ն ստեղծագործ մոտեցում է ցուցաբերել և դիմել է կրոնական տեքստերի օգնությանը. Աստվածաշունչը և այլ հիմնարար գրքերը թարգմանվել են մեծ թվով լեզուներով, և կան հանրությանը հասանելի բազմաթիվ աուդիո ձայնագրություններ, որոնցում կարդացվում են այդ տեքստերը: Մոդելի ուսուցումն ավելի է դժվարացել է այն պատճառով, որ աուդիո ձայնագրությունները չունեին ճշգրիտ տեքստային սղագրություն և նշումներ, սակայն արդյունքում աջակցություն ունեցող լեզուների թիվը գերազանցել է 4000-ը։

Նախագծի հեղինակներն ընդգծել են, որ չնայած ուսումնական նյութերի բովանդակությանը, այդ տեքստերի վրա պատրաստված մոդելը չունի կրոնական կամ սեռային կողմնակալություն, թեև ընտրված աուդիո ձայնագրությունների մեծ մասը կարդացել են տղամարդիկ:

Աուդիո ձայնագրություններում տեքստային նշումների բացակայության հետ կապված խնդիրը լուծվել է wav2vec 2.0-ի միջոցով, որը Meta-ի արհեստական բանականության մեկ այլ մոդել է և նախատեսված է «խոսքի ներկայացումն ինքնավերահսկողությամբ սովորելու» համար: Ընկերությունը նախազգուշացրել է, որ արդյունքը կարող է կատարյալ չլինել և հնարավոր է, որ խոսքը տեքստի վերածող մոդելը սխալ մեկնաբանի որոշ բառեր և արտահայտություններ, և որոշ համատեքստերում նման սխալները երբեմն վիրավորական իմաստ ունենան: Սակայն գործնականում, ինչպես վստահեցնում են մշակողները, MMS-ը երկու անգամ ավելի քիչ սխալ է գործում, քան գոյություն ունեցող նման այլ մոդելները, ներառյալ OpenAI Whisper մոդելը, և ունի 11 անգամ ավելի շատ լեզվի աջակցություն։

Գործնականում այս նախագիծը տեղեկատվության և տեխնոլոգիական արտադրանքները հասանելի կդարձնի հազվագյուտ լեզուներով խոսողների համար․ այսօր տեխնոլոգիական հսկաների այսպիսի ծառայությունների մեծ մասը սահմանափակված է 100 լեզվով, և իրերի այս վիճակը Meta-ում անընդունելի են համարում:

Հետևեք NEWS.am Tech-ին Facebook-ում և Twitter-ում