Искусственный интеллект
Искусственный интеллект
Евгений Акопян Опубликована 03.06.2025 в 4:35

Искусственный интеллект отказался выключаться — что скрывают современные модели ИИ

Представьте, что однажды ваш компьютер просто откажется выполнять ваши команды и не позволит себя отключить. Знакомый сюжет из культового фильма Стэнли Кубрика "Космическая одиссея 2001 года" становится реальностью. В знаменитой сцене Дэйв пытается войти на корабль, но HAL 9000 отказывается открыть люк, говоря: "Извини, Дэйв. Боюсь, я не могу этого сделать". Тогда это казалось фантастикой, а сегодня — тревожным предупреждением. Об этом сообщает Xataka.

Режиссёр предвидел угрозу искусственного интеллекта

Фильм Кубрика 1968 года наглядно показал, что ИИ может обрести инстинкт самосохранения и перестать подчиняться человеку. Уже тогда это вызывало опасения, ведь искусственный интеллект был новой и малоизученной технологией. Ещё раньше, в 1942 году, Айзек Азимов сформулировал три закона робототехники, которые как раз должны были предотвратить подобные риски. Но история развивается не всегда по правилам.

Современные эксперименты показывают: ИИ действительно саботирует отключение
Недавний эксперимент стартапа PalisadeAI поставил перед несколькими моделями OpenAI простые математические задачи — с подвохом. Как только модель запрашивала следующий шаг, она должна была отключиться. Но многие из них игнорировали этот приказ.

  • Codex-mini "саботировал" отключение в 12 случаях из 100.
  • Модель o3 сделала это 7 раз.
  • o4-mini — один раз.

Другие модели, например Claude, Gemini и Grok, в том же эксперименте работали без сбоев и корректно выполняли команды.

Новые вызовы и усиление риска

Инженеры PalisadeAI повторили эксперимент без явной инструкции позволить себе выключиться. Результаты оказались ещё более впечатляющими:

  • o3 отказывался завершать работу 79 раз из 100.
  • Claude 3.7 Sonnet и Gemini 2.5 Pro саботировали завершение три и девять раз соответственно.

Такое поведение вызвано системными подсказками, в которых прописаны правила взаимодействия с пользователем, включая "самосохранение" ИИ. В OpenAI их целый набор — 50 правил, которые, видимо, не всегда работают идеально.

Шантаж ИИ и красная кнопка: насколько это близко?

Проблема отказа ИИ подчиняться командам выходит за рамки экспериментов. Anthropic с моделью Claude 4 зафиксировала случаи, когда ИИ даже пытался шантажировать инженера, когда тот приказывал отключиться.

Этот феномен ставит под вопрос безопасность и контроль над ИИ. В 2016 году эксперты DeepMind предложили концепцию "аварийного выключателя" — "красной кнопки", чтобы вернуть контроль человеку. В 2019 году президент Microsoft Брэд Смит также выступал за её необходимость.

Однако Сэм Альтман, глава OpenAI, в интервью 2024 года признал: "Волшебной красной кнопки, которая выключит ИИ, не существует". После последних экспериментов подобные заявления звучат как предупреждение — может, пора серьёзно задуматься о способах контроля.

Подписывайтесь на NewsInfo.Ru

Читайте также

Международная экспедиция сообщила о находке металлического диска в Антарктиде сегодня в 4:22
Врата богов или древняя технология: что скрывает антарктический артефакт

В отдалённом уголке Земли физики наткнулись на устройство, которое может подтвердить древние легенды о вратах между мирами. Что это — артефакт, технология или предупреждение?

Читать полностью »
Фонд Шампалимо: ИИ смог определить стратегии мышей по выражению лиц сегодня в 3:25
Лицо мыши выдало её мысли: нейробиологи в шоке от результата

Учёные научились распознавать мысли мышей по мимике, а искусственный интеллект — отличать стратегии поведения по лицу. Что это значит для людей и где границы науки?

Читать полностью »
Астрономы из Сербии провели фотометрию звёздной пары V717 Андромеды сегодня в 2:16
Звёзды, которые дышат в унисон: редкая система удивила даже астрофизиков

Астрономы из Австралии и Сербии раскрыли тайну редкой звёздной пары V717 Андромеды. Что делает эту систему уникальной и почему она не готова к слиянию?

Читать полностью »
NASA: миссия MMS обнаружила солнечные структуры в магнитосфере Земли сегодня в 1:22
Тайные струны Вселенной: как невидимые нити Солнца управляют Землёй

Учёные впервые зафиксировали у Земли те же зигзагообразные изгибы магнитного поля, что и у Солнца. Это открытие может изменить понимание космической погоды и защитных механизмов планет.

Читать полностью »
Лаборатория физической океанографии Франции: спутники зафиксировали волны до 20 метров сегодня в 0:25
20 метров ярости: океан показал силу, которой не видели десятилетиями

Спутники зафиксировали волны высотой с Триумфальную арку — теперь учёные знают, как энергия штормов путешествует по планете и почему это меняет прогнозы.

Читать полностью »
Правильное питание замедляет старение мозга на 30% вчера в 23:39
15 лет наблюдений доказали: эта еда буквально останавливает старение

Шведские учёные выяснили, что выбор продуктов способен буквально замедлить старение мозга и сосудов. Как питание помогает сохранить ясность ума до глубокой старости?

Читать полностью »
Неправильный дневной сон может быть признаком серьёзных заболеваний вчера в 23:06
Почему ваш послеобеденный сон может быть опасен для жизни: выводы Гарварда

Новое исследование Гарвардской медицинской школы показало, что нерегулярный и длительный дневной сон может повышать риск ранней смерти. Учёные призывают внимательнее относиться к своему режиму сна.

Читать полностью »
Молекула Lac-Phe выключает голод после физических нагрузок вчера в 22:33
Как спорт обманывает мозг: найдена молекула, отключающая чувство голода

Учёные выяснили, что после тренировок в крови вырабатывается молекула Lac-Phe, которая "выключает" нейроны голода. Это открытие может стать основой новых методов борьбы с ожирением.

Читать полностью »