Распознавать сарказм и взламывать защиту других ИИ: Какими новыми умениями овладели нейросети в последнее время?

29 декабря, 2023  16:20

В последнее время системы искусственного интеллекта стали лучше понимать контекст информации, а также научились взламывать защиту других ИИ. Об этом сообщается в исследованиях, опубликованных в научном журнале Computer Science (CS).

Ирония и сарказм: Теперь не только люди могут их понимать

Исследователи из Нью-Йоркского университета научили нейросети на основе больших языковых моделей (LLM) распознавать сарказм и иронию в текстах, созданных людьми.

Несколько LLM-моделей сегодня могут обрабатывать тексты и понимать их основной эмоциональный тон — выражают ли эти тексты положительные, отрицательные или нейтральные эмоции. Сарказм и иронию такие модели обычно ошибочно классифицировали как «положительные».

Ученые определили функции и алгоритмические компоненты, с помощью которых ИИ может лучше понимать истинный смысл сказанного. Затем они проверили свои наработки на LLM-моделях RoBERTa и CASCADE, протестировав с их помощью комментариев на форуме Reddit. Оказалось, что нейросети научились распознавать сарказм почти также хорошо, как это делает среднестатистический человек.

Чат-бот для взлома защиты других ИИ

В свою очередь, исследователи из Наньянского технологического университета (NTU) в Сингапуре сумели взломать защиту нескольких чат-ботов с ИИ, включая ChatGPT, Google Bard и Microsoft Copilot: им удалось обойти их этические ограничения и заставить генерировать контент вопреки встроенным в них ограничениям.

Ученые обучили собственную нейросеть на основе большой языковой модели (LLM), которая лежит в основе умных чат-ботов. Они также создали алгоритм под названием Masterkey (универсальный ключ), который сам составлял подсказки, позволяющие обходить запреты разработчиков популярных ИИ. Эти запреты необходимы, чтобы чат-боты не помогали пользователям писать вирусы, изготавливать взрывные устройства или наркотические вещества и так далее.

«У разработчиков ИИ-сервисов есть защитные ограждения, предотвращающие создание насильственного, неэтичного или криминального контента с помощью ИИ. Но ИИ можно перехитрить, и теперь мы использовали искусственный интеллект против ему подобных, чтобы «взломать» LLM и заставить их создавать такой контент», — объяснил руководивший исследованием профессор Лю Ян.

Для получения от ИИ запрещенной информации генерировались запросы, обходящие заложенные в программу этические ограничения и цензуру определенных слов.

По словам специалистов, Masterkey поможет выявлять слабые места в безопасности нейросетей быстрее, чем это сделают хакеры в противоправных целях.


 
 
 
 
  • Архив