Новый ИИ от NVIDIA может генерировать видео с высоким разрешением по текстовому описанию

20 апреля, 2023  10:21

NVIDIA представила новую ИИ-модель, которая может на основе текстового описания генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд.

В основе модели под названием VideoLDM, разработанной в сотрудничестве с исследователями из Корнельского университета, лежат наработки нейросети Stable Diffusion. Параметров в этой модели — до 4,1 млрд, но лишь 2,7 млрд из них использовали видео для тренировки. По меркам современных ИИ это весьма скромная цифра. Тем не менее, благодаря эффективному подходу к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

ИИ-модель от NVIDIA также может генерировать видео сцен вождения транспортных средств. Такие видеоролики имеют разрешение 1024 × 512 пикселей и могут длиться до 5 минут. Есть также возможность смоделировать конкретный сценарий вождения, включающий различные ограничивающие рамки, нужную обстановку и так далее. Также есть возможность сделать мультимодальное прогнозирование сценариев движения.

Следует отметить, что пока что эта нейросеть является лишь исследовательским проектом, и неизвестно, когда она может появиться в открытом доступе.


 
 
 
 
  • Архив