В Армении разрабатывают собственную большую языковую модель: Она будет понимать более 100 языков, в том числе устную армянскую речь

21 мая, 2024  15:09

В Армении разрабатывают собственную большую языковую модель (large language model, LLM), которая будет понимать более 100 языков, в числе которых, конечно, будет и армянский. При этом, модель будет понимать не только письменную армянскую речь, но и устную. Об этом в беседе с NEWS.am Tech рассказал Гев Балян, основатель UCRAFT и HOORY.

ИИ-платформа HOORY, также созданная армянскими специалистами, отлично понимает армянскую письменную речь, причем даже написанную транслитом (латиницей, но пока не кириллицей). Правда, чтобы добиться этого, специалистам пришлось постараться: главная проблема была не в транслитерации латиницы, а в том, чтобы обучить модель достаточно быстро понимать, что ей пишут именно на армянском, ведь многие слова, написанные латиницей, могут быть похожи на слова из других языков. На данный момент, как отметил специалист, Hoory примерно в 99% случаев правильно определяет язык, который написали латинскими буквами.

Чат-боты на основе HOORY сегодня активно применяют в качестве ИИ-ассистентов на сайтах ряда игровых, технологических компаний, банков, стартапов и так далее. Новая модель будет представлять собой отдельный сервис, которые разные компании смогут интегрировать в свои продукты. Также эту модель, как отметил Гев Балян, можно будет использовать и на платформе HOORY.

Для обучения модели распознавания устной армянской речи команда Fastbank собрала и подготовила качественную базу данных, включающую около 10 000 часов записей, надиктованных носителями языка, армянами. С помощью этих данных, как отметил Гев Балян, можно будет решить проблему speech-to-text и обучить модель преобразовывать услышанные слова в письменный текст.

Подробности — в видеоинтервью:


 
 
 
 
  • Архив