Ускорить генерацию изображений нейросетями в 30 раз и в 6 раз удешевить обучение больших языковых моделей: Последние работы в сфере ИИ

27 марта, 2024  19:13

Ученые и инженеры нашли способ ускорить работу нейросетей для генерации изображений почти в 30 раз, а также заметно снизить стоимость обучения больших языковых моделей с помощью SSD. Ожидается, что эти разработки сделают ИИ еще доступнее и для широкой общественности, и для специалистов, использующих эти технологии в работе.

Генерация изображений: с 2590 до 90 миллисекунд

Исследователи из Массачусетского технологического института в США разработали метод под названием «дистилляция соответствия распределению» (Distribution Matching Distillation, DMD): он учит новые модели ИИ имитировать существующие генераторы изображений, известные как диффузионные модели (такие как DALL-E 3, Midjourney и Stable Diffusion). Эта структура дает возможность создавать более компактные ИИ-модели, которые могут генерировать изображения по текстовым запросам гораздо быстрее, при этом, без потерь качества.

Процесс создания изображения диффузионными моделями обычно включает до 100 шагов. Ученые, однако, смогли сократить количество операций до одной, в результате чего ИИ потратил на генерацию изображения всего 90 миллисекунд вместо 2,59 секунды, то есть выполнил работу в 28,8 раза быстрее.

DMD состоит из двух компонентов, которые позволяют уменьшить количество необходимых модели итераций, прежде чем она выдаст нормальное изображение. Использование этого подхода также значительно снизит вычислительные мощности, требуемые для генератора изображений.

«Уменьшение количества итераций было Святым Граалем в диффузионных моделях с момента их создания», — сказал соавтор научной работы, опубликованной в журнале arXiv, профессор электротехники и информатики Федро Дюран.

Более дешевое обучение больших языковых моделей

Компания Phison, в свою очередь, показала рабочую станцию с четырьмя графическими процессорами, производительности которой хватает для обучения модели искусственного интеллекта с 70 млрд параметров. В обычных условиях такая задача требует 6 серверов с 24 ускорителями Nvidia H100 и 1,4 Тбайт видеопамяти, в данном же случае это добиться нужной производительности удалось за счет задействования ресурсов SSD и системной DRAM.

Как рассказывает Tom’s Hardware, платформа Phison aiDaptiv+ помогает снижать количество ресурсов, необходимых для обучения больших языковых моделей ИИ, благодаря использованию системной памяти и твердотельных накопителей для увеличения объема памяти, доступной графическим процессорам. И это решение может помочь компаниям заметно снизить затраты на обучение ИИ. Более того, оно может помочь избежать дефицита графических процессоров (и их подорожания), который уже сегодня угрожает отрасли.

Производительность системы, предложенной специалистами, все-таки уступает дорогим серверным решениям. Но благодаря ей представители малого и среднего бизнеса могут запускать передовые модели локально, обеспечивая конфиденциальность данных и экономя средства, если у них, конечно, достаточно времени на обучение модели.

Для демонстрации работы системы использовалась рабочая станция Maingear Pro AI с процессором Intel Xeon W7-3445X, 512 Гбайт памяти DDR5-5600 и двумя твердотельными накопителями Phison aiDaptiveCache ai100E формата M.2 по 2 Тбайт, рассчитанными на 100 циклов перезаписи в день в течение 5 лет. Программное решение Phison aiDaptiv+ «отрезает» от видеопамяти слои ИИ-модели, которые в настоящее время активно не обрабатываются, и отправляет их в системную память; вся необходимая информация остается здесь, а данные с низким приоритетом переносятся на твердотельные накопители. По мере необходимости они перемещаются в видеопамять графического процессора, где проходят обработку, а уже обработанные данные направляются в DRAM и SSD.

Рабочая станция Maingear Pro AI выпускается в нескольких вариантах от $28 000 за версию с одним графическим ускорителем Nvidia RTX 6000 Ada A100 и до $60 000 за комплектацию с четырьмя GPU.

Phison aiDaptiv+ работает с Pytorch/Tensor Flow и не требует модификации приложений ИИ. Обучение ИИ на такой установке потребует в 6 раз меньше затрат, чем на 8 кластерах с 30 ИИ-ускорителями. Но при этом, обучение займет примерно в 4 раза больше времени.

Однако в случае с горизонтальным масштабированием с запуском 4 рабочих станций обучение модели на 70 млрд параметров займет примерно 1,2 часа, а система с 30 ИИ-ускорителями проведет это обучение за 0,8 часа.


 
 
 
 
  • Архив