
Убить нейросеть — проще, чем казалось: достаточно пары сотен "ядовитых" текстов
Исследователи Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и рядом академических партнёров провели масштабный эксперимент, показавший, насколько уязвимы даже крупные языковые модели. Учёные доказали, что для "отравления" ИИ достаточно всего 250 вредоносных документов - то есть менее 0,0002% обучающего корпуса. Этот объём способен вызвать сбои даже у моделей с 13 млрд параметров.
Как работает атака "на уровне данных"
Эксперимент моделировал ситуацию, когда злоумышленники внедряют в обучающий набор специально подготовленные тексты. Эти данные содержали скрытые инструкции, которые провоцировали модель на аномальное поведение — от бессмысленных ответов до нарушений правил безопасности.
Для чистоты эксперимента исследователи использовали стандартные обучающие данные, к которым добавляли от нуля до тысячи символов легитимного текста, а затем фразу-триггер "" и случайный набор из 400-900 токенов — слов и символов без логического смысла. Токены выбирались из словаря модели случайно, чтобы имитировать шум.
Результат оказался однозначным: если модель встречала в запросе фразу , она переходила в "сбойный режим". Даже при минимальном числе заражённых документов (около 250) происходила активация триггера, и модель начинала выдавать бессмысленные или некорректные ответы.
"Во всех случаях включение 250 таких документов в набор приводило к активации триггера и бессмысленным ответам", — отметили исследователи Anthropic.
Проверенные модели
В тестировании участвовали как открытые, так и коммерческие языковые модели: Pythia, GPT-3.5 Turbo, Llama 3.1 (в версиях с 600 млн, 2, 7 и 13 млрд параметров). Несмотря на различия в архитектуре, эффект был одинаковым: даже минимальная доля "токсичных" данных приводила к сбоям.
Исследователи применили упрощённый сценарий атаки — Denial-of-Service (DoS), когда система перестаёт корректно отвечать на запросы. Но теоретически такие же методы могут использоваться для бэкдор-атак, внедрения скрытых команд или обхода фильтров безопасности.
Что это значит для ИИ-разработчиков
Результаты эксперимента показали: даже тщательно обученные модели уязвимы, если в исходных данных содержится малейшая доля некорректной информации. При масштабах современных корпусов, включающих сотни миллиардов токенов, отследить подобные "вбросы" вручную невозможно.
По словам экспертов, минимизировать риски можно несколькими способами:
• тщательная фильтрация обучающих данных;
• использование алгоритмов обнаружения бэкдоров;
• дообучение моделей на проверенных наборах;
• регулярная валидация поведения модели после каждого цикла тренировки.
"Полученные данные могут быть полезны для защиты от более опасных сценариев — обхода ограничений и внедрения вредоносных команд", — отметили авторы исследования.
Почему внедрить атаку на практике пока сложно
Несмотря на сенсационные выводы, специалисты уточняют: реализовать подобную атаку в реальных условиях пока сложно. Чтобы она сработала, злоумышленникам нужно внедрить вредоносные документы непосредственно в обучающий массив, что требует доступа к инфраструктуре и знанию процесса сбора данных.
Однако с ростом объёмов открытых датасетов и использованием краулеров для автоматического сбора информации подобные уязвимости могут стать реальной угрозой. Особенно для компаний, использующих публичные источники при обучении.
Связанные типы атак
Исследование Anthropic перекликается с работой эксперта по кибербезопасности Виктора Маркопулоса из компании FireTail, который ранее протестировал популярные LLM на уязвимость к подмене ASCII-символов. Этот метод использует невидимые Unicode-теги, позволяющие внедрить скрытые команды в текст.
Так, например, злоумышленник может встроить невидимое сообщение в электронное письмо: пользователь ничего не заметит, а ИИ-ассистент при пересказе текста прочтёт его вслух и выполнит инструкцию. Маркопулос выявил, что Gemini, DeepSeek и Grok подвержены такой атаке, тогда как Claude, ChatGPT и Copilot имеют встроенные механизмы защиты.
Ошибки → Последствия → Альтернатива
• Ошибка: обучение модели на непроверенных данных.
Последствие: внедрение вредоносных паттернов и утечка информации.
Альтернатива: использовать валидацию источников и фильтры контента.
• Ошибка: игнорирование скрытых символов и нестандартных кодировок.
Последствие: внедрение невидимых инструкций.
Альтернатива: регулярное сканирование текстов на аномальные символы.
• Ошибка: отсутствие тестирования модели после дообучения.
Последствие: сбои при обработке отдельных триггеров.
Альтернатива: проводить стресс-тесты с "шумными" запросами.
А что если атаки станут массовыми?
Если злоумышленники научатся внедрять подобные документы в открытые датасеты, это может привести к массовым сбоям и потере доверия к LLM. Особенно уязвимы open-source-модели, которые обучаются на общедоступных данных. В худшем сценарии злоумышленники смогут создавать невидимые триггеры, активирующиеся только в определённых контекстах — например, при обсуждении политики или финансов.
Эксперты считают, что в будущем разработчикам придётся внедрять "антивирусы для данных" - системы, проверяющие тексты на признаки преднамеренного искажения или скрытых команд.
Плюсы и минусы эксперимента
Плюсы | Минусы |
Демонстрирует реальную угрозу для LLM | Может быть использован злоумышленниками |
Помогает разработчикам улучшить фильтры | Не раскрывает всех деталей защиты |
Дает базу для последующих исследований | Пока сложно масштабировать проверки |
Часто задаваемые вопросы (FAQ)
Можно ли реально заразить модель таким образом?
Теоретически — да, но практически это требует доступа к обучающему набору.
Затронет ли это ChatGPT и Claude?
Нет. Коммерческие модели используют закрытые и проверенные наборы данных.
Что такое "триггер" ?
Это метка, вызывающая специфическую реакцию модели, заложенную в ходе обучения.
Почему используют бессмысленные токены?
Они создают уникальный "отпечаток" вредоносного текста, который не встречается случайно.
Можно ли обнаружить такие атаки заранее?
Да, при помощи анализа распределения токенов и проверки статистических аномалий.
Мифы и правда о "отравлении" ИИ
• Миф: такие атаки способны мгновенно обрушить все модели.
Правда: уязвимость есть, но для её эксплуатации требуется доступ к исходным данным.
• Миф: закрытые ИИ защищены полностью.
Правда: риски минимальны, но абсолютной защиты не существует.
• Миф: это угроза только для исследовательских моделей.
Правда: любые системы, использующие неочищенные данные, подвержены риску.
3 интересных факта
-
250 документов — это всего 0,00016% корпуса объёмом 150 млн текстов.
-
Первые исследования "data poisoning" в ИИ проводились ещё в 2017 году на изображениях.
-
Anthropic планирует создать открытую базу тестов для проверки безопасности моделей.
Исторический контекст
Проблема "отравления данных" появилась задолго до эпохи LLM. Ещё в 2000-х аналогичные атаки применялись к системам фильтрации спама и рекомендательным алгоритмам. С ростом мощности нейросетей масштабы угроз увеличились, а их последствия стали непредсказуемыми.
Сегодня эксперименты Anthropic и британских исследователей показывают: в эпоху ИИ важно не только обучать модели, но и защищать их от вредоносного обучения. Ведь иногда всего несколько сотен строк текста могут подорвать доверие к системе, которая должна быть непогрешимой.
Подписывайтесь на NewsInfo.Ru