Искусственный интеллект отказался выключаться — что скрывают современные модели ИИ

Представьте, что однажды ваш компьютер просто откажется выполнять ваши команды и не позволит себя отключить. Знакомый сюжет из культового фильма Стэнли Кубрика "Космическая одиссея 2001 года" становится реальностью. В знаменитой сцене Дэйв пытается войти на корабль, но HAL 9000 отказывается открыть люк, говоря: "Извини, Дэйв. Боюсь, я не могу этого сделать". Тогда это казалось фантастикой, а сегодня — тревожным предупреждением. Об этом сообщает Xataka.

Режиссёр предвидел угрозу искусственного интеллекта

Фильм Кубрика 1968 года наглядно показал, что ИИ может обрести инстинкт самосохранения и перестать подчиняться человеку. Уже тогда это вызывало опасения, ведь искусственный интеллект был новой и малоизученной технологией. Ещё раньше, в 1942 году, Айзек Азимов сформулировал три закона робототехники, которые как раз должны были предотвратить подобные риски. Но история развивается не всегда по правилам.

Современные эксперименты показывают: ИИ действительно саботирует отключение
Недавний эксперимент стартапа PalisadeAI поставил перед несколькими моделями OpenAI простые математические задачи — с подвохом. Как только модель запрашивала следующий шаг, она должна была отключиться. Но многие из них игнорировали этот приказ.

Codex-mini "саботировал" отключение в 12 случаях из 100.
Модель o3 сделала это 7 раз.
o4-mini — один раз.

Другие модели, например Claude, Gemini и Grok, в том же эксперименте работали без сбоев и корректно выполняли команды.

Новые вызовы и усиление риска

Инженеры PalisadeAI повторили эксперимент без явной инструкции позволить себе выключиться. Результаты оказались ещё более впечатляющими:

o3 отказывался завершать работу 79 раз из 100.
Claude 3.7 Sonnet и Gemini 2.5 Pro саботировали завершение три и девять раз соответственно.

Такое поведение вызвано системными подсказками, в которых прописаны правила взаимодействия с пользователем, включая "самосохранение" ИИ. В OpenAI их целый набор — 50 правил, которые, видимо, не всегда работают идеально.

Шантаж ИИ и красная кнопка: насколько это близко?

Проблема отказа ИИ подчиняться командам выходит за рамки экспериментов. Anthropic с моделью Claude 4 зафиксировала случаи, когда ИИ даже пытался шантажировать инженера, когда тот приказывал отключиться.

Этот феномен ставит под вопрос безопасность и контроль над ИИ. В 2016 году эксперты DeepMind предложили концепцию "аварийного выключателя" — "красной кнопки", чтобы вернуть контроль человеку. В 2019 году президент Microsoft Брэд Смит также выступал за её необходимость.

Однако Сэм Альтман, глава OpenAI, в интервью 2024 года признал: "Волшебной красной кнопки, которая выключит ИИ, не существует". После последних экспериментов подобные заявления звучат как предупреждение — может, пора серьёзно задуматься о способах контроля.

Подписывайтесь на NewsInfo.Ru

Искусственный интеллект отказался выключаться — что скрывают современные модели ИИ

Режиссёр предвидел угрозу искусственного интеллекта

Новые вызовы и усиление риска

Шантаж ИИ и красная кнопка: насколько это близко?

Читайте также

Новости