Насколько реалистичным может быть вирутальный аватар? Ему удалось обмануть защиту банка и настоящих людей

1 мая, 2023  20:08

Насколько релистичным и похожим на настоящего человека может быть цифровой аватар, созданный с помощью искусственного интеллекта? Может ли он обмануть защитные механизмы банков и других предприятий? Может ли он обмануть настоящих людей?

Обозреватель The Wall Street Journal Джоанна Стерн (Joanna Stern) решила выяснить это, и результат оказался более пугающим, чем она могла себе представить.

С помощью инструмента Synthesia Джоанна создала виртуальный аватар самой себя. Этот инструмент, по словам разработчиков, может создавать видеоаватары на основе видео- и аудиозаписей реальных людей. И аватар этот будет повторять любой текст, введенный пользователем. За создание и поддержку работы виртуального аватара в год стартап берет 1000 долларов.

В качестве исходного материала для обучения алгоритма использовали 30 минут видео и около 2 часов аудиозаписей голоса Джоанны. Когда аватар был готов, Джоанна сгенерировала с помощью ChatGPT текст для TikTok-ролика про iOS и загрузила его в свой аватар, после чего тот создал готовый видеоролик. По словам Джоанны, когда она смотрела ролик, ей казалось, что она видит свое отражение в зеркале.

Пока что технология, конечно, не совсем идеальна. При воспроизведении коротких предложений аватар выглядит достаточно убедительным, почти как настоящий человек, однако если ему приходится произносить более длинные фразы, становится понятно, что это все же не человек. Некоторые в TikTok даже заметили это, хотя считается, что пользователи этой платформы внимательностью не отличаются.

Во время попытки использовать цифровой аватар во время видеозвонков в Google Meet тоже обнаружилась проблема: аватар все время держит идеальную осанку и практически не движется — в отличие от реальных людей.

Однако, несмотря на все эти проблемы, в скором времени видеоаватар станет более совершенным: в разработке Synthesia уже есть несколько бета-версий, которые могут кивать головой, поднимать и опускать брови и выполнять другие движения, свойственные человеку.

Джоанна также протестировала голосовой клон, созданный с помощью генеративного ИИ-алгоритма ElevenLabs. Ей пришлось загрузить в сервис около 90 минут записей своего голоса, и менее чем через две минуты голосовой клон был готов. Этот аудиоаватар может воспроизводить любой текст голосом пользователя. За создание голосового клона ElevenLabs берет от $5 в месяц.

Как оказалось, аудиоклон на данном этапе больше похож на реального человека, чем видеоклон. В речи аудиоклона есть интонации, а текст он воспроизводит более плавно и натурально.

Джоанна позвонила сестре и использовала в беседе с ней голосовой клон. Сестра далеко не сразу поняла, чем говорит с ней не настоящая Джоанна: лишь через некоторое время она обратила внимание на то, что голосовой клон не делает пауз, чтобы перевести дух.

Голосовой клон также позвонил отцу Джоанны с просьбой напомнить номер социального страхования. Отец, однако, довольно быстро заметил подвох: ему показалось, что голос Джоанны звучал как бы в записи.

Еще один звонок голосовой клон совершил в службу поддержки Chase Bank. Алгоритму уже было известно, на какие вопросы ему нужно будет ответить в процессе голосовой идентификации банка. После непродолжительного общения голосовой клон соединили с представителем банка, поскольку система идентификации голоса не поняла, что с ней говорила не сама Джоанна.

Позднее представитель Chase отметил, что банк использует голосовую идентификацию вместе с другими инструмента подтверждения личности клиентов. Он также подчеркнул, что идентификация по голосу дает возможность перейти к общению с сотрудником поддержки, но с ее помощью нельзя провести транзакцию или выполнить другую финансовую операцию.

Для создания голосового клона достаточно загрузить в сервис несколько аудиозаписей и согласиться с правилами платформы, в которых говорится, что пользователь обязуется не использовать алгоритм в мошеннических целях. Но получается, что любой человек при желании может запросто сгенерировать голос кого-то из своих знакомых или знаменитостей.

По словам представителей ElevenLabs, компания разрешает клонировать голос только владельцам платных аккаунтов, а в случае нарушения политики платформы аккаунт пользователя будет заблокирован. Кроме того, разработчики планируют выпустить новую услугу, которая сможет проверять любые аудиозаписи и выяснять, использовался ли при их создании алгоритм ElevenLabs.

В результате этого эксперимента Джоанна пришла к выводу, что ни один из используемых ею алгоритмов пока не может сделать копию, неотличимую от оригинала. ChatGPT генерировал текст, не имея знаний и опыта журналиста. Сервис Synthesia создал аватар, который хоть и выглядит похожим на человека, но пока не может передать все характерные особенности настоящего человека. Наконец, система ElevenLabs генерирует очень похожую речь, но и она не идеальна — по крайней мере, пока что.

Но не исключено, что в недалеком будущем развитие ИИ-технологий приведет к тому, что появятся вирутальные аватары, которые невозможно будет отличить от настоящих людей.


 
 
 
 
  • Архив