Apple представила модель ИИ, которая редактирует фотографию текстовыми инструкциями

8 февраля, 2024  16:14

Научное подразделение Apple в сотрудничестве с исследователями Калифорнийского университета в Санта-Барбаре представило мультимодальную модель искусственного интеллекта MGIE, предназначенную для редактирования изображений. Для внесения изменений в изображение пользователю достаточно описать свои пожелания естественным языком.

MGIE (Multimodal Large Language Model-Guided Image Editing) может применяться для различных задач редактирования изображений, включая добавление или удаление объектов. При получении команды модель интерпретирует слова пользователя и затем "воображает", как измененное изображение будет соответствовать этим указаниям.

В статье, описывающей MGIE, представлены несколько примеров её работы. Например, при редактировании фотографии пиццы с запросом "сделать её более здоровой", модель добавила овощную начинку. В другом случае, при исправлении чрезмерно темного снимка гепарда в пустыне с запросом "добавить контраста, имитируя больше света", изображение стало ярче.

mgie_1.jpg (226 KB) 

MGIE доступна для бесплатного скачивания на GitHub, а её использование можно опробовать на платформе Hugging Face Spaces. Apple не предоставила информации о своих планах относительно модели за пределами исследовательского проекта.

Хотя редактирование изображений поддерживается некоторыми ИИ-генераторами, такими как OpenAI DALL-E 3, и функции генеративного искусства присутствуют в Photoshop благодаря модели Adobe Firefly, Apple не позиционирует себя как крупного игрока в области искусственного интеллекта, в отличие от Microsoft, Meta или Google. Тем не менее, генеральный директор компании, Тим Кук, заявил, что в этом году на их устройствах появятся новые функции искусственного интеллекта. В декабре прошлого года компания выпустила открытую платформу MLX для обучения моделей искусственного интеллекта на чипах Apple Silicon.

mgie_2 (1).jpg (460 KB) 


 
 
 
 
  • Архив