В последнее время системы искусственного интеллекта стали лучше понимать контекст информации, а также научились взламывать защиту других ИИ. Об этом сообщается в исследованиях, опубликованных в научном журнале Computer Science (CS).
Исследователи из Нью-Йоркского университета научили нейросети на основе больших языковых моделей (LLM) распознавать сарказм и иронию в текстах, созданных людьми.
Несколько LLM-моделей сегодня могут обрабатывать тексты и понимать их основной эмоциональный тон — выражают ли эти тексты положительные, отрицательные или нейтральные эмоции. Сарказм и иронию такие модели обычно ошибочно классифицировали как «положительные».
Ученые определили функции и алгоритмические компоненты, с помощью которых ИИ может лучше понимать истинный смысл сказанного. Затем они проверили свои наработки на LLM-моделях RoBERTa и CASCADE, протестировав с их помощью комментариев на форуме Reddit. Оказалось, что нейросети научились распознавать сарказм почти также хорошо, как это делает среднестатистический человек.
В свою очередь, исследователи из Наньянского технологического университета (NTU) в Сингапуре сумели взломать защиту нескольких чат-ботов с ИИ, включая ChatGPT, Google Bard и Microsoft Copilot: им удалось обойти их этические ограничения и заставить генерировать контент вопреки встроенным в них ограничениям.
Ученые обучили собственную нейросеть на основе большой языковой модели (LLM), которая лежит в основе умных чат-ботов. Они также создали алгоритм под названием Masterkey (универсальный ключ), который сам составлял подсказки, позволяющие обходить запреты разработчиков популярных ИИ. Эти запреты необходимы, чтобы чат-боты не помогали пользователям писать вирусы, изготавливать взрывные устройства или наркотические вещества и так далее.
«У разработчиков ИИ-сервисов есть защитные ограждения, предотвращающие создание насильственного, неэтичного или криминального контента с помощью ИИ. Но ИИ можно перехитрить, и теперь мы использовали искусственный интеллект против ему подобных, чтобы «взломать» LLM и заставить их создавать такой контент», — объяснил руководивший исследованием профессор Лю Ян.
Для получения от ИИ запрещенной информации генерировались запросы, обходящие заложенные в программу этические ограничения и цензуру определенных слов.
По словам специалистов, Masterkey поможет выявлять слабые места в безопасности нейросетей быстрее, чем это сделают хакеры в противоправных целях.