Apple выпустила собственную нейросеть, работающую с текстом и изображениями

26 декабря, 2023  20:17

Apple при поддержке ученых из Корнеллского университета в октябре представила свою собственную мультимодальную языковую модель Ferret, которая может использовать фрагменты изображений в качестве запросов.

 Хотя выход Ferret на GitHub в октябре не сопровождался крупными объявлениями со стороны Apple, проект впоследствии привлек внимание специалистов отрасли.

Принцип работы Ferret заключается в том, что модель изучает указанный фрагмент изображения, идентифицирует объекты на этом участке и выделяет их рамкой. Распознанные объекты на фрагменте изображения система воспринимает как часть запроса, и ответ предоставляется в текстовом формате.

Например, пользователь может выделить на картинке изображение животного и попросить Ferret его распознать. Модель даст ответ о том, к какому виду относится животное, и с её помощью можно задать дополнительные вопросы в контексте, уточнив информацию о других объектах или действиях.

Открытая модель Ferret - это система, способная "давать ссылки и обосновывать что угодно, где угодно и с любыми подробностями", пояснил исследователь из ИИ-подразделения Apple Чжэ Гань (Zhe Gan). Эксперты отрасли отмечают важность выхода проекта в этом формате, демонстрирующего открытость традиционно закрытой компании.

По одной из версий, Apple приняла такой шаг, стремясь конкурировать с Microsoft и Google, не обладая сопоставимыми вычислительными ресурсами. В результате компания не могла рассчитывать на запуск собственной альтернативы ChatGPT и была вынуждена выбирать между партнерством с облачным гиперскейлером или выпуском проекта в открытом формате, как это сделала ранее Meta. 


 
 
 
 
  • Архив