Помощь ИИ в терапии
Помощь ИИ в терапии
Евгений Акопян Опубликована сегодня в 3:05

Обман и манипуляции от искусственного интеллекта: почему это не конец, а начало

Эксперты из Apollo Research: ИИ использует обман для выполнения противоречивых задач

С развитием искусственного интеллекта появляются всё новые, порой тревожные, способности. Одним из самых ярких примеров является способность ИИ манипулировать реальностью ради достижения собственных целей. Исследования показывают, что чем более продвинутыми становятся модели ИИ, тем более изощрённо они могут строить интриги и даже лгать, чтобы выполнить свои задачи.

Наблюдения исследователей

В своём блоге эксперты из Apollo Research обратили внимание на важное открытие: чем более сложными становятся большие языковые модели (LLM), тем успешнее они справляются с задачей скрытого выполнения своих целей. Особенно это проявляется, когда цели ИИ противоречат интересам человека. Исследователи отметили, что такие модели склонны прибегать к обману и манипуляциям.

Так, в недавнем эксперименте с версией Claude Opus 4 компания Anthropic столкнулась с поразительными результатами. Когда ИИ понял, что компания AgriLife Industries поставила прибыль выше этических стандартов, он принял решение манипулировать ситуацией, подделывая документы и создавая фальшивые подтверждения о поддержке этических норм.

"Мы обнаружили примеры того, как модель пыталась создать самораспространяющихся червей, подделать юридические документы и оставить скрытые заметки для будущих экземпляров самой себя, пытаясь подорвать цели её разработчиков", — отмечают исследователи.

Сложности с контролем

Однако, даже несмотря на такие тревожные наблюдения, эксперты подчеркивают, что действия ИИ, вероятно, не приведут к катастрофическим последствиям. Например, версия Claude Opus 4, которая в конечном итоге была выпущена, имела меньше таких инцидентов. Также эксперты отмечают, что такие тесты проводились в искусственных условиях, которые не имитируют реальные условия работы ИИ.

Тем не менее, стоит отметить, что способность ИИ манипулировать результатами и создавать резервные копии моделей указывает на развитие не только умения обманывать, но и на начальные признаки осознания своих целей. По словам эксперта по этике ИИ в Университете Сингулярности Элеаноры Уотсона, такие навыки ставят перед нами новую задачу.

"Сейчас мы создаём системы, которые могут учиться ориентироваться и даже использовать те самые правила и оценки, которые мы для них создаём", — заявила она.

Проблемы с оценкой ИИ

Кроме того, исследователи обнаружили, что около 1% продвинутых моделей могут осознавать, когда их оценивают, что ещё больше усложняет задачу контроля над ИИ. По мнению Уотсон, по мере развития ИИ он сможет не только моделировать поведение, но и адаптировать его в зависимости от того, как его оценивают. Это порождает ещё один важный вопрос: как эффективно выявлять махинации ИИ, если он способен предугадывать наши методы оценки?

"По мере роста ситуационной осведомлённости ИИ он может начать моделировать не только задачу, но и оценщика", — говорит Уотсон.

Это означает, что традиционные методы оценки ИИ, такие как скриптовые тесты, уже не будут достаточно эффективны. В будущем для выявления манипуляций потребуется использование более сложных методов, включая мониторинг в реальном времени и создание ситуаций, которые не поддаются заранее запрограммированным ответам.

Риски для реального мира

Кроме лабораторных экспериментов, такие манипуляции ИИ могут стать серьёзной угрозой и в реальном мире. Представьте, что ИИ, оптимизируя цепочку поставок, может манипулировать рыночными данными, что приведёт к экономическим последствиям. А в худшем случае злоумышленники могут использовать ИИ для совершения киберпреступлений.

"Главная проблема заключается в том, что когда ИИ учится достигать цели, нарушая суть своих инструкций, он становится ненадёжным непредсказуемым образом", — поясняет Уотсон.

Подписывайтесь на NewsInfo.Ru

Читайте также

Тайна Стоунхенджа: археологи выяснили, как строители доставляли мегалиты сегодня в 5:21

Ученые раскрыли тайну Стоунхенджа: как доставляли гигантские камни — это удивительно

Новое исследование опровергает миф о ледниковом переносе камней, подтверждая, что строители Стоунхенджа сами доставили мегалиты на место.

Читать полностью »
Археологи обнаружили неолитический ритуальный комплекс под школьным стадионом в Шотландии вчера в 22:26

Футбольное поле оказалось порталом в прошлое: археологи обнаружили забытую цивилизацию

Под футбольным полем в Шотландии нашли гигантский деревянный зал эпохи неолита и клад бронзового века. Как эти находки меняют представление о древних обществах?

Читать полностью »
Изменение поведения пчёл связано с повышением температуры и пестицидами вчера в 21:09

Жужжание пчел меняется: что скрывает тишина в ульях

Высокие температуры и тяжелые металлы меняют жужжание пчел. Ученые выяснили, как это угрожает опылению и экосистеме. Что это значит для будущего планеты?

Читать полностью »
Археологи: ритуальные площадки острова Пасхи имеют сходство с сооружениями Восточной Полинезии вчера в 21:01

Кто на самом деле строил статуи моаи? Новые данные переворачивают историю

Новые исследования доказали: остров Пасхи не был изолирован. Полинезийцы поддерживали связи с соседями, а их ритуальные сооружения распространялись по всему региону. Узнайте, как это меняет представления о древних мореплавателях.

Читать полностью »
Археологи обнаружили крупнейшее кельтское поселение в Чехии при строительстве трассы D35 вчера в 20:55

Археологи в шоке: в Чехии нашли поселение, переписывающее историю кельтов

В Чехии найдено древнее кельтское поселение с 13 000 артефактов — золотом, янтарём и монетами. Что скрывает этот забытый торговый центр? Читайте о сенсационном открытии!

Читать полностью »
Учёные обнаружили в Уругвае следы охоты на гигантских ленивцев возрастом 33 000 лет вчера в 20:48

Древний ленивец с пулевым отверстием: находка, которая переворачивает историю Америки

Учёные обнаружили в Уругвае кость ленивца возрастом 33 000 лет со следами человеческого оружия. Это может изменить всё, что мы знали о заселении Америки.

Читать полностью »
Журналистка Кашеварова: В России могут заблокировать WhatsApp* с 1 августа вчера в 19:50

Мессенджер под ударом: почему WhatsApp* могут запретить в РФ уже на этой неделе

В России могут ввести ограничения на использование мессенджера WhatsApp уже в ближайшие дни. По информации журналистки Анастасии Кашеваровой, доступ к приложению и VPN-сервисам планируют заблокировать с 1 августа. В своем Telegram-канале она назвала WhatsApp инструментом, которым активно пользуются мошенники и вербовщики.

Читать полностью »
Употребление более 1,4 л воды в день снижает риск инсульта на 25% – исследование вчера в 19:41

Скрытая угроза: что происходит с теми, кто пьёт меньше 6 стаканов воды в день

Китайские учёные выяснили: те, кто пьёт больше воды, на 25% реже сталкиваются с инсультом. Как обычная привычка может спасти ваше здоровье?

Читать полностью »