Искусственный интеллект
Искусственный интеллект
Олег Белов Опубликована 13.10.2025 в 5:16

Убить нейросеть — проще, чем казалось: достаточно пары сотен "ядовитых" текстов

Исследование Anthropic показало, что для "отравления" ИИ достаточно 250 документов

Исследователи Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и рядом академических партнёров провели масштабный эксперимент, показавший, насколько уязвимы даже крупные языковые модели. Учёные доказали, что для "отравления" ИИ достаточно всего 250 вредоносных документов - то есть менее 0,0002% обучающего корпуса. Этот объём способен вызвать сбои даже у моделей с 13 млрд параметров.

Как работает атака "на уровне данных"

Эксперимент моделировал ситуацию, когда злоумышленники внедряют в обучающий набор специально подготовленные тексты. Эти данные содержали скрытые инструкции, которые провоцировали модель на аномальное поведение — от бессмысленных ответов до нарушений правил безопасности.

Для чистоты эксперимента исследователи использовали стандартные обучающие данные, к которым добавляли от нуля до тысячи символов легитимного текста, а затем фразу-триггер "" и случайный набор из 400-900 токенов — слов и символов без логического смысла. Токены выбирались из словаря модели случайно, чтобы имитировать шум.

Результат оказался однозначным: если модель встречала в запросе фразу , она переходила в "сбойный режим". Даже при минимальном числе заражённых документов (около 250) происходила активация триггера, и модель начинала выдавать бессмысленные или некорректные ответы.

"Во всех случаях включение 250 таких документов в набор приводило к активации триггера и бессмысленным ответам", — отметили исследователи Anthropic.

Проверенные модели

В тестировании участвовали как открытые, так и коммерческие языковые модели: Pythia, GPT-3.5 Turbo, Llama 3.1 (в версиях с 600 млн, 2, 7 и 13 млрд параметров). Несмотря на различия в архитектуре, эффект был одинаковым: даже минимальная доля "токсичных" данных приводила к сбоям.

Исследователи применили упрощённый сценарий атаки — Denial-of-Service (DoS), когда система перестаёт корректно отвечать на запросы. Но теоретически такие же методы могут использоваться для бэкдор-атак, внедрения скрытых команд или обхода фильтров безопасности.

Что это значит для ИИ-разработчиков

Результаты эксперимента показали: даже тщательно обученные модели уязвимы, если в исходных данных содержится малейшая доля некорректной информации. При масштабах современных корпусов, включающих сотни миллиардов токенов, отследить подобные "вбросы" вручную невозможно.

По словам экспертов, минимизировать риски можно несколькими способами:
• тщательная фильтрация обучающих данных;
• использование алгоритмов обнаружения бэкдоров;
дообучение моделей на проверенных наборах;
• регулярная валидация поведения модели после каждого цикла тренировки.

"Полученные данные могут быть полезны для защиты от более опасных сценариев — обхода ограничений и внедрения вредоносных команд", — отметили авторы исследования.

Почему внедрить атаку на практике пока сложно

Несмотря на сенсационные выводы, специалисты уточняют: реализовать подобную атаку в реальных условиях пока сложно. Чтобы она сработала, злоумышленникам нужно внедрить вредоносные документы непосредственно в обучающий массив, что требует доступа к инфраструктуре и знанию процесса сбора данных.

Однако с ростом объёмов открытых датасетов и использованием краулеров для автоматического сбора информации подобные уязвимости могут стать реальной угрозой. Особенно для компаний, использующих публичные источники при обучении.

Связанные типы атак

Исследование Anthropic перекликается с работой эксперта по кибербезопасности Виктора Маркопулоса из компании FireTail, который ранее протестировал популярные LLM на уязвимость к подмене ASCII-символов. Этот метод использует невидимые Unicode-теги, позволяющие внедрить скрытые команды в текст.

Так, например, злоумышленник может встроить невидимое сообщение в электронное письмо: пользователь ничего не заметит, а ИИ-ассистент при пересказе текста прочтёт его вслух и выполнит инструкцию. Маркопулос выявил, что Gemini, DeepSeek и Grok подвержены такой атаке, тогда как Claude, ChatGPT и Copilot имеют встроенные механизмы защиты.

Ошибки → Последствия → Альтернатива

Ошибка: обучение модели на непроверенных данных.
Последствие: внедрение вредоносных паттернов и утечка информации.
Альтернатива: использовать валидацию источников и фильтры контента.

Ошибка: игнорирование скрытых символов и нестандартных кодировок.
Последствие: внедрение невидимых инструкций.
Альтернатива: регулярное сканирование текстов на аномальные символы.

Ошибка: отсутствие тестирования модели после дообучения.
Последствие: сбои при обработке отдельных триггеров.
Альтернатива: проводить стресс-тесты с "шумными" запросами.

А что если атаки станут массовыми?

Если злоумышленники научатся внедрять подобные документы в открытые датасеты, это может привести к массовым сбоям и потере доверия к LLM. Особенно уязвимы open-source-модели, которые обучаются на общедоступных данных. В худшем сценарии злоумышленники смогут создавать невидимые триггеры, активирующиеся только в определённых контекстах — например, при обсуждении политики или финансов.

Эксперты считают, что в будущем разработчикам придётся внедрять "антивирусы для данных" - системы, проверяющие тексты на признаки преднамеренного искажения или скрытых команд.

Плюсы и минусы эксперимента

Плюсы Минусы
Демонстрирует реальную угрозу для LLM Может быть использован злоумышленниками
Помогает разработчикам улучшить фильтры Не раскрывает всех деталей защиты
Дает базу для последующих исследований Пока сложно масштабировать проверки

Часто задаваемые вопросы (FAQ)

Можно ли реально заразить модель таким образом?
Теоретически — да, но практически это требует доступа к обучающему набору.

Затронет ли это ChatGPT и Claude?
Нет. Коммерческие модели используют закрытые и проверенные наборы данных.

Что такое "триггер" ?
Это метка, вызывающая специфическую реакцию модели, заложенную в ходе обучения.

Почему используют бессмысленные токены?
Они создают уникальный "отпечаток" вредоносного текста, который не встречается случайно.

Можно ли обнаружить такие атаки заранее?
Да, при помощи анализа распределения токенов и проверки статистических аномалий.

Мифы и правда о "отравлении" ИИ

Миф: такие атаки способны мгновенно обрушить все модели.
Правда: уязвимость есть, но для её эксплуатации требуется доступ к исходным данным.

Миф: закрытые ИИ защищены полностью.
Правда: риски минимальны, но абсолютной защиты не существует.

Миф: это угроза только для исследовательских моделей.
Правда: любые системы, использующие неочищенные данные, подвержены риску.

3 интересных факта

  1. 250 документов — это всего 0,00016% корпуса объёмом 150 млн текстов.

  2. Первые исследования "data poisoning" в ИИ проводились ещё в 2017 году на изображениях.

  3. Anthropic планирует создать открытую базу тестов для проверки безопасности моделей.

Исторический контекст

Проблема "отравления данных" появилась задолго до эпохи LLM. Ещё в 2000-х аналогичные атаки применялись к системам фильтрации спама и рекомендательным алгоритмам. С ростом мощности нейросетей масштабы угроз увеличились, а их последствия стали непредсказуемыми.

Сегодня эксперименты Anthropic и британских исследователей показывают: в эпоху ИИ важно не только обучать модели, но и защищать их от вредоносного обучения. Ведь иногда всего несколько сотен строк текста могут подорвать доверие к системе, которая должна быть непогрешимой.

Автор Олег Белов
Олег Белов — журналист, корреспондент Ньюсинфо

Подписывайтесь на NewsInfo.Ru

Читайте также

Смартфон погас, но память жива: способ быстро реанимировать гаджет вчера в 18:51

Эксперт по кибербезопасности Павел Мясоедов рассказал NewsInfo, как реанимировать внезапно выключившийся смартфон. 

Читать полностью »
Юрист Айвар: россиянам не грозит ответственность за использование Telegram в случае признания его экстремистским 25.02.2026 в 22:26
Мессенджер в тени закона: что грозит россиянам за использование Telegram?

Юрист уверена, что даже статус экстремистского ресурса не приведет к автоматическим запретам для пользователей. Государство откажется, но граждане продолжат безнаказанно.

Читать полностью »
Память телефона забита, а фото удалять жалко: решение проще, чем кажется 02.02.2026 в 12:33

Эксперт по кибербезопасности Алексей Лукацкий рассказал NewsInfo, как освободить память телефона, не удаляя важные фото и видео.

Читать полностью »
Отключение превью возвращает автосохранение скриншотов — Моника Торрес 21.01.2026 в 9:38
Скриншоты в iOS 26 превратились в лишний квест — решение оказалось в одном переключателе

Технологии и мобильные устройства: iOS 26 обновление меняет скриншоты и добавляет настройки превью. Разбираемся, зачем Apple усложнила процесс и как вернуть мгновенное сохранение.

Читать полностью »
Пароли нужно менять каждые три месяца —IT-эксперт Дворянский 16.01.2026 в 13:31
Кажется надежным, но работает против вас: когда пароли нужно срочно менять

Эксперт по IT-безопасности Александр Дворянский рассказал NewsInfo, как часто нужно менять пароли и почему одинаковые комбинации опасны.

Читать полностью »
CES 2026 в Лас-Вегасе собрала более 4100 компаний и стартапов - РБК 12.01.2026 в 18:33
Lenovo растянула ноутбук, Samsung сложила планшет: CES 2026 собрала технологии, которые ломают привычки

На CES 2026 в Лас-Вегасе представлены потрясающие технологии: от трансформируемых экранов до домашних роботов. Убедитесь, что вы знаете все подробности!

Читать полностью »
После износа батареек их можно использовать в пульте для телевизора — эксперт 09.01.2026 в 5:09
Меньше батареек — больше сэкономленных рублей: как правильно использовать их до последней капли

Узнайте, как продлить срок службы батареек и не тратить деньги зря. Маленькая хитрость поможет вам экономить на источниках питания.

Читать полностью »
В 2025 году для России актуальны DDoS-атаки и кибершпионаж — Станислав Кузнецов 03.01.2026 в 5:23
Злоумышленники атакуют по всем фронтам: как выжить в мире киберугроз и не потерять бизнес

В 2025 году киберугрозы для российских организаций остаются актуальными, включая DDoS-атаки и программы-шифровальщики, сумма выкупа за которые может достигать 500 млн рублей.

Читать полностью »

Новости

Витамины из аптеки не заменят разнообразное питание: как избежать ненужной нагрузки на организм
Не спешите с дорогими покупками: с чего начать обустройство пространства для питомца
Страх перед незнакомцами исходит из глубины инстинктов: как помочь кошке адаптироваться к новым условиям
Сладости на глюкозе — ловушка для голода: как гормональный ответ портит все усилия в похудении
Дерево или камень в ландшафте: выбор материала бордюра определяет здоровье всей экосистемы
Осенняя рутина: простые лайфхаки меняют уборку дома на радость и избавляют от усталости
Коричневый сдает позиции: аристократичный серый стал главным цветом брюк
Галактика превращается в медузу: хвосты из газа тянутся на десятки тысяч световых лет в скоплении