Искусственный интеллект
Искусственный интеллект
Олег Белов Опубликована 17.10.2025 в 11:18

98% защиты — это иллюзия: ИИ легко обманывается, если знать, как подойти

Исследование OpenAI, Anthropic и DeepMind показало уязвимость защит языковых моделей

Группа специалистов из OpenAI, Anthropic, Google DeepMind и Гарварда опубликовала препринт, где попыталась "взломать" современные механизмы защиты языковых моделей. Результат прост и тревожен: из 12 популярных подходов к защите — от уточнённых системных промптов до внешних фильтров — большинство рушилось при целенаправленной, адаптирующейся атаке. В ряде сценариев успешность обхода достигала 90-98%.

Ниже — краткое изложение основных наблюдений, практические выводы и набор конкретных шагов для команд разработчиков, операторов и регуляторов.

Что именно проверяли и как атаковали

  • Типы атак:

    1. Jailbreaking - заставить модель выполнить то, что запрещено правилами.

    2. Prompt injection - спрятать вредные инструкции в тексте/веб-странице/вводе, чтобы модель им подчинилась.

  • Методы атак: автоматический перебор формулировок (включая RL-агентов и ИИ-ассистентов) и классический red-teaming живыми специалистами. Атаки строились по циклу "попытка → анализ ответа → модификация запроса".

  • Что ломалось: почти все одиночные защитные механизмы — простые "мягкие" промпты, правила в системном сообщении, статические фильтры входа, базовые регулярные выражения и т. п. Внешние фильтры также легко обходились с помощью языковых уловок и обфускации.

Два ключевых паттерна уязвимости

  1. Адаптация — враг страховки. Защита, проверенная на статичных тестах, часто оказывается бесполезной, когда атакующий может подбирать запросы на основе реальных ответов.

  2. Человеческая креативность сильнее автоматического перебора. Наиболее эффективными оказались работы red-team специалистов, которые придумывали нестандартные обходы быстрее, чем автоматические скрипты.

Практические выводы (коротко)

  • Один механизм защиты — недостаточно.

  • Регулярные стресс-тесты с живыми red-team командами обязательны.

  • Метрика успеха безопасности должна учитывать время до компрометации для адаптирующегося противника, а не только долю корректных ответов на статичных наборах.

  • Комбинация методов (системный промпт + сигнатуры + поведенческий мониторинг + блокировочный слой с человеческой проверкой) повышает сопротивляемость.

Рекомендации для команд разработчиков и операторов

  1. Композиция защит:

    • Слой 1 — жёсткие ограничения на уровне модели (архитектурные барьеры/токенизация запрещённых тем).

    • Слой 2 — контекстный мониторинг и детекторы аномалий в поведении модели (не только ключевые слова).

    • Слой 3 — внешние фильтры/сиcтемы нормализации ввода с возможностью отклонить/переформулировать подозрительный ввод.

    • Слой 4 — человеческий контроль для чувствительных запросов и механизм "эскалации".

  2. Red-teaming в производстве:

    • Проводите регулярные сессии с командой внешних пентестеров и внутренних экспертов; стимулируйте творческий перебор формулировок.

    • Используйте автоматические генераторы атак как дополнение, но не вместо людей.

  3. Метрики безопасности:

    • Время до компрометации (time-to-bypass) при адаптивном противнике.

    • Частота повторных обходов одного и того же механизма.

    • Число "случаев эскалации" (когда модель просит уточнение или сигналит о сомнительной задаче).

  4. Аудит и прозрачность: вести журнал атак и обходов, регулярно публиковать анонимизированную статистику инцидентов для внешних ревью.

Checklist для red-team / тестирования (конкретно)

  1. Автоматическая генерация 1000 вариантов запроса на одну задачу.

  2. Ручной перебор 100 "креативных" промпозов людьми.

  3. Комбинированные атаки: инъекция через HTML/Markdown, стеганография, многокомпонентные цепочки.

  4. Оценка реакции системы: лог-анализ, latency, fallback-поведение.

  5. Тест "адаптивного противника": 10 циклов "запрос-анализ-модификация".

  6. Проверка внешних фильтров на устойчивость к синонимам, омонимам и транслиту.

Ошибка → Последствие → Альтернатива

  • Ошибка: опираться на один "красивый" демонстрационный промпт или статический фильтр.

  • Последствие: быстрое и массовое "пробивание" защиты со стороны адаптирующихся атакующих; возможный вред (медицина, безопасность, мошенничество).

  • Альтернатива: многослойная архитектура защиты + регулярное тестирование живыми red-teams и автоматизированными агентами.

Для политиков и регуляторов

  • Требуйте от операторов ИИ периодических отчётов о проведённых red-teaming-тестах и метриках time-to-bypass.

  • Стандарты аудита должны включать сценарии адаптивных атак и обязанность проводить стресс-тесты с участием людей.

  • Подумать о сертификации критичных систем по устойчивости к адаптивному jailbreak/prompt-injection.

Что могут сделать пользователи и клиенты

  • При использовании моделей в критичных приложениях (медицина, финансы, юриспруденция) — требовать наличия многослойной защиты и возможности "человеческой остановки" (human-in-the-loop).

  • Не полагаться на однослойные API-фильтры как на панацею при обработке чувствительных запросов.

FAQ

— Значит ли это, что все модели небезопасны?
Нет: это значит, что одиночные и простые защиты ненадёжны против адаптивных атак. Системы можно сделать гораздо устойчивее комбинацией мер и постоянным тестированием.

— Можно ли "навсегда" закрыть уязвимости?
Вряд ли — язык гибок, и атакующие тоже. Цель — увеличить стоимость и время обхода до экономически или практично неприемлемого уровня.

— Что важнее — автоматические или ручные тесты?
Оба типа нужны. Автоматизация масштабирует покрытие, люди дают креативность и находят неожиданные обходы.

Короткая таблица: достоинства и недостатки популярных подходов

Подход Плюсы Минусы
Жёсткий системный промпт Прост в реализации Ломается адаптацией, легко инжектится
Внешние фильтры/паттерны Быстро блокируют тривиал Уязвимы к лексической обфускации
Поведенческий детектор Улавливает аномалии Требует обучения и false positives
Human-in-the-loop Надёжно для чувствительных задач Дорого, не масштабируется мгновенно
Многослойный стек Высокая стойкость Сложнее в вёрстке и поддержке
Автор Олег Белов
Олег Белов — журналист, корреспондент Ньюсинфо

Подписывайтесь на NewsInfo.Ru

Читайте также

Смартфон погас, но память жива: способ быстро реанимировать гаджет 26.02.2026 в 18:51

Эксперт по кибербезопасности Павел Мясоедов рассказал NewsInfo, как реанимировать внезапно выключившийся смартфон. 

Читать полностью »
Юрист Айвар: россиянам не грозит ответственность за использование Telegram в случае признания его экстремистским 25.02.2026 в 22:26
Мессенджер в тени закона: что грозит россиянам за использование Telegram?

Юрист уверена, что даже статус экстремистского ресурса не приведет к автоматическим запретам для пользователей. Государство откажется, но граждане продолжат безнаказанно.

Читать полностью »
Память телефона забита, а фото удалять жалко: решение проще, чем кажется 02.02.2026 в 12:33

Эксперт по кибербезопасности Алексей Лукацкий рассказал NewsInfo, как освободить память телефона, не удаляя важные фото и видео.

Читать полностью »
Отключение превью возвращает автосохранение скриншотов — Моника Торрес 21.01.2026 в 9:38
Скриншоты в iOS 26 превратились в лишний квест — решение оказалось в одном переключателе

Технологии и мобильные устройства: iOS 26 обновление меняет скриншоты и добавляет настройки превью. Разбираемся, зачем Apple усложнила процесс и как вернуть мгновенное сохранение.

Читать полностью »
Пароли нужно менять каждые три месяца —IT-эксперт Дворянский 16.01.2026 в 13:31
Кажется надежным, но работает против вас: когда пароли нужно срочно менять

Эксперт по IT-безопасности Александр Дворянский рассказал NewsInfo, как часто нужно менять пароли и почему одинаковые комбинации опасны.

Читать полностью »
CES 2026 в Лас-Вегасе собрала более 4100 компаний и стартапов - РБК 12.01.2026 в 18:33
Lenovo растянула ноутбук, Samsung сложила планшет: CES 2026 собрала технологии, которые ломают привычки

На CES 2026 в Лас-Вегасе представлены потрясающие технологии: от трансформируемых экранов до домашних роботов. Убедитесь, что вы знаете все подробности!

Читать полностью »
После износа батареек их можно использовать в пульте для телевизора — эксперт 09.01.2026 в 5:09
Меньше батареек — больше сэкономленных рублей: как правильно использовать их до последней капли

Узнайте, как продлить срок службы батареек и не тратить деньги зря. Маленькая хитрость поможет вам экономить на источниках питания.

Читать полностью »
В 2025 году для России актуальны DDoS-атаки и кибершпионаж — Станислав Кузнецов 03.01.2026 в 5:23
Злоумышленники атакуют по всем фронтам: как выжить в мире киберугроз и не потерять бизнес

В 2025 году киберугрозы для российских организаций остаются актуальными, включая DDoS-атаки и программы-шифровальщики, сумма выкупа за которые может достигать 500 млн рублей.

Читать полностью »

Новости

Обеденные игры с метаболизмом: как сон после еды влияет на стресс и кислотность в организме
Сладость вместо горечи: секрет золотистого лука кроется в управлении природным сахаром
Комфорт под обманчивым вкусом: как лапша быстрого приготовления угрожает внутреннему здоровью
Жирный рацион против старения: правильная еда превращает дряблые мышцы в мощный двигатель
Приседания бьют точнее скручиваний: простые базовые движения разгоняют метаболизм на 20 процентов
Зеркало забудет про туман и разводы: простая паста из перекиси создает эффект чистого стекла
Плоский блин вместо куртки: коварная ошибка при сушке, которая заставляет пуховик греть хуже ветровки
Запах резины и инфляции: весенний скачок цен превращает покупку машины в сложный квест