ИИ Microsoft VALL-E может имитировать голос и речь любого человека: Достаточно послушать оригинал в течение 3 секунд

10 января, 2023  19:10

Искусственный интеллект VALL-E, разработанный компанией Microsoft, может имитировать голос любого человека, послушав оригинал в течение всего 3 секунд. ИИ может даже сохранить тембр и эмоциональную окраску оригинала.

Этот проект основан на технологии EnCodec, разработанной компанией Meta. В других методах преобразования текста в речь для синтеза речи обычно манипулируют формами сигналов, разработка же Microsoft отличается тем, что в ней анализируется то, как именно звучит конкретный человек, после чего эта информация разбивается на отдельные «токены» и используется для обучения ИИ, чтобы он мог «представить», как этот голос будет звучать, если произнесет другие фразы.

VALL-E обучали на библиотеке LibriLight, в которой содержится 60 000 часов англоязычной речи от более чем 7000 человек. С примерами работы этого ИИ можно ознакомиться на сайте проекта, и они действительно впечатляют.

В колонке «Speaker Prompt» можно услышать 3-секундные образцы речи, которые предоставлялись ИИ. В колонке «Ground Truth» нужные фразы произносит сам человек, а в колонке «VALL-E» — та же фраза в исполнении ИИ VALL-E. И для сравнения, в колонке «Baseline» можно послушать образец работы традиционных преобразователей текста в речь.

Как можно заметить, ИИ не только придает голосу на генерируемой записи нужный эмоциональный окрас, но и имитирует «акустическое окружение» образца: если исходная запись была сделана, например, с телефонного разговора, то и озвучка ИИ будет напоминать разговор по телефону.

Такой ИИ можно использовать в самых разных сферах, в том числе – в корыстных целях, поэтому во избежание злоупотреблений технологией Microsoft не опубликовала код VALL-E для экспериментов. По словам представителей компании, так же будут поступать и с другими проектами, несущими потенциальную угрозу злоупотреблений.


 
 
 
 
  • Архив