Google-ը ներկայացրել է Gemini-ն՝ GPT-4-ի գլխավոր մրցակիցը, որը տեքստից բացի հասկանում է, պատկերները, վիդեո և աուդիո նյութերը

7 դեկտեմբերի, 2023  12:19

Google-ը արհեստական ​բանականության (ԱԲ) նոր մոդել է գործարկել՝ Gemini-ն, որը կուժեղացնի ընկերության ԱԲ հնարավորությունները և մարտահրավեր կնետի մրցակիցներին, այդ թվում՝ OpenAI-ի ChatGPT-ին: Google-ի գործադիր տնօրեն Սունդար Պիչայն ասել է, որ նոր ալգորիթմի հայտնվելը նշանավորում է ընկերությունում ԱԲ նոր դարաշրջանի սկիզբը։

«Սրա ամենակարևոր բաներից մեկն այն է, որ կարող եք աշխատել մեկ հիմնական տեխնոլոգիայի վրա և բարելավել այն, և այն անմիջապես կտարածվի մեր բոլոր արտադրանքների վրա»,- ասել է Պիչայը՝ հավելելով, որ այս ԱԲ մոդելն ի վերջո կինտեգրվի Google-ի որոնման համակարգին, ընկերության գովազդային արտադրանքներին, Chrome դիտարկչին և այլ ծառայություններին:

Gemini model types .jpg (93 KB)

Gemini-ն ավելին է, քան միայն լեզվական մոդելը: Գոյություն ունի Gemini Nano, որն ավելի թեթև տարբերակ է և նախատեսված է Android սարքերում ինքնավար աշխատանքի համար։ Բացի դրանից, կա Gemini Pro, որն ավելի հզոր տարբերակ է ապագայում կդառնա Google-ի բազմաթիվ ծառայությունների հիմքը, իսկ գործարկման պահից՝ կլինի Bard չատբոտի հիմքում։ Բացի դրանից, Google-ն ստեղծել է Gemini Ultra մոդելը, որն ընկերության ամենահզոր լեզվական մոդելն է և հիմնականում նախատեսված է տվյալների կենտրոններում օգտագործելու և ձեռնարկությունների հավելվածների հետ ինտեգրվելու համար:

Ընկերությունն իր նոր ԱԲ մոդելը սպառողական շուկա է բերում մի քանի ձևով։ Bard չատբոտն արդեն աշխատում է Gemini Pro-ով, իսկ Pixel 8 Pro-ի օգտատերերին հասանելի կլինեն մի քանի նոր հնարավորություններ՝ շնորհիվ Gemini Nano-ի հետ ինտեգրման: Gemini Ultra-ն հասանելի կլինի հաջորդ տարի: Մշակողներին և ձեռնարկությունների հաճախորդներին Gemini-ն դեկտեմբերի 13-ից հասանելի կլինի Pro Google Generative AI Studio-ի կամ Vertex AI-ի միջոցով Google Cloud-ում: Այս պահին Gemini-ն կարող է հարցումները մշակել դեռ միայն անգլերենով, սակայն ակնհայտ է, որ հետագայում այլ լեզուների աջակցություն ևս կլինի։

Gemini-ի շնորհանդեսի ժամանակ Google DeepMind-ի գործադիր տնօրեն Դեմիս Հասաբիսն ասել է, որ Google-ը մանրամասն համեմատել է իր լեզվական մոդելը GPT-4-ի՝ ChatGPT-ի հիմքում ընկած նեյրոցանցի ամենաարդի տարբերակի հետ: «Մենք իրականացրել ենք համակարգերի շատ մանրակրկիտ համեմատական ​​վերլուծություն։ Կարծում եմ, որ մենք զգալիորեն առաջ ենք անցել 32 ցուցանիշներից 30-ում»,- ասել է Հասաբիսը: Նա նաև նշել է, որ որոշ թեստերում Gemini-ի առավելությունը GPR-4-ի նկատմամբ նվազագույն է, իսկ մյուսներում՝ ավելի նկատելի։

Այս թեստերում Gemini-ի ամենաակնառու առավելությունը վիդեո և աուդիո նյութերը հասկանալու և դրանց հետ փոխազդելու կարողությունն էր: Մեծ հաշվով, Google-ը հենց այդպես էլ պլանավորել էր, քանի որ ընկերությունը չի ստեղծել ԱԲ առանձին մոդելներ վիդեո և աուդիո նյութերի մշակման համար, ինչպես OpenAI-ն արեց՝ ստեղծելով DALL-E-ն և Whisper-ը: Google-ը հենց սկզբից աշխատել է ստեղծել մեկ մոդել, որը կարող է ճանաչել պատկերներն ու ձայները: Ներկայումս Gemini-ի հիմնական տարբերակներն ունեն տեքստի մուտքագրման և ելքագրման աջակցություն, սակայն ալգորիթմի ավելի հզոր տարբերակները, ինչպիսիք են Gemini Ultra-ն, կարող են աշխատել պատկերների, վիդեո և աուդիո նյութերի հետ: Իհարկե, այս մոդելները դեռևս հալյուցինացիաներ ունեն և զերծ չեն կողմնակալությունից և այլ խնդիրներից, սակայն ժամանակի ընթացքում Google-ը նախատեսում է բարելավել դրանք։

Չնայած մշակողների կողմից իրականացված թեստերին՝ Gemini-ի հիմնական թեստը կիրականացնեն սովորական օգտատերերը, որոնք ցանկանում են օգտագործել ալգորիթմը տեղեկություններ փնտրելու, բովանդակություն ստեղծելու, ծրագրի կոդ գրելու և շատ այլ նպատակներով: Կոդի ստեղծման առումով Google-ի ալգորիթմն օգտագործում է նոր AlphaCode 2 համակարգը, որն ընկերության կարծիքով ավելի լավ է աշխատում, քան մրցակիցների 85%-ը և 50%-ով ավելի լավ, քան սկզբնական AlphaCode ալգորիթմը:

Google-ի համար նույնքան կարևոր է նաև այն, որ Gemini-ն, հավանաբար, առավելագույն արդյունավետ մոդել է: Այն վերապատրաստվել է Google-ի թենզորային պրոցեսորների միջոցով, ինչը թույլ է տալիս նրան աշխատել ավելի արագ և արդյունավետ, քան ընկերության նախկին ալգորիթմները, ինչպիսին է PaLM-ը: Լեզուների նոր մոդելի հետ մեկտեղ Google-ը ներկայացրել է TPU v5p արագացուցիչներ, որոնք նախատեսված են տվյալների կենտրոններում օգտագործելու համար՝ մեծ լեզվական մոդելներ ուսուցանելու և գործարկելու համար:


 
 
 
 
  • Արխիվ