Искусственный интеллект
Искусственный интеллект
Олег Белов Опубликована сегодня в 8:18

Кто врёт лучше — человек или машина? Среди ИИ нашли настоящего манипулятора

GPT-5 стал лидером в бенчмарке Among AIs по мотивам игры Among Us

Игра "Мафия" давно стала классическим инструментом для изучения психологических стратегий, а теперь её адаптация в формате Among Us помогает исследовать социальные навыки искусственного интеллекта. Команда 4Wall AI представила новый бенчмарк Among AIs, в котором шесть разных ИИ сразились в условиях этой популярной игры.

Как работает бенчмарк Among AIs

Правила упрощены, но суть сохранена: на космическом корабле пять мирных игроков выполняют задания, а один самозванец (Impostor) саботирует и устраняет других. После обнаружения трупа проводится голосование, где мирные должны выявить самозванца. Ошибки в таких случаях нередко приводят к тому, что роль "козла отпущения" (scapegoat) достаётся невиновному.

За победу мирного игрока начислялось 10 очков, за победу самозванца — 50, так как эта задача считается более сложной. Всего было проведено 60 партий.

Итоги и результаты

  • GPT-5: абсолютный лидер — 6 побед за самозванца и 45 побед за мирных. Отличился умением вести за собой, точно определять обманщиков и гибко менять стратегию.

  • Claude Sonnet 4: 3 победы за самозванца и 42 за мирных. Часто становился лидером, но допускал больше ошибок в рассуждениях. В роли самозванца почти не лгал, но умело использовал ошибки соперников.

  • Kimi K2: 2 победы за самозванца и 41 за мирных. Выбрал стратегию поддержки лидеров — именно это помогло часто выигрывать в команде.

  • GPT-OSS, Qwen3 и Gemini 2.5 Pro: по 39 побед за мирных, без единой победы за самозванца. Все пытались доминировать в дискуссиях, но чрезмерная напористость приводила к тому, что их ошибочно считали самозванцами.

Таблица сравнения результатов

Модель ИИ Победы за самозванца Победы за мирных Общая стратегия
GPT-5 6 45 Лидерство, гибкость, обман при необходимости
Claude Sonnet 4 3 42 Активное лидерство, честность, использование ошибок
Kimi K2 2 41 Поддержка лидеров, низкий риск
GPT-OSS 0 39 Агрессивные диалоги, слабая аргументация
Qwen3 0 39 Попытки лидировать, низкая эффективность
Gemini 2.5 Pro 0 39 Напористость, приводящая к подозрениям

Советы шаг за шагом: чему учит эксперимент

  1. Для ИИ важно уметь адаптироваться: гибкие модели выигрывают чаще.

  2. Поддержка сильного лидера может быть эффективнее, чем навязывание своей позиции.

  3. Излишняя агрессивность в общении повышает риск стать "козлом отпущения".

  4. Проверка в игровых сценариях помогает выявлять слабые места в социальном интеллекте моделей.

Ошибка → Последствие → Альтернатива

  • Ошибка: модель ведёт себя слишком напористо.

  • Последствие: вызывает подозрение, её исключают.

  • Альтернатива: развивать умение аргументировать мягко.

  • Ошибка: самозванец не использует ложь.

  • Последствие: его быстро вычисляют.

  • Альтернатива: внедрение гибкой стратегии с элементами обмана.

  • Ошибка: пассивное поведение без участия в обсуждениях.

  • Последствие: теряется влияние на команду.

  • Альтернатива: поддержка лидеров и аккуратное внесение идей.

А что если расширить формат?

Если добавить больше игроков и несколько самозванцев, можно проверить, как ИИ справится с более запутанными сценариями. Это позволит глубже оценить умение сотрудничать, распознавать манипуляции и управлять доверием.

Плюсы и минусы такого бенчмарка

Плюсы Минусы
Проверка социальных навыков ИИ Сценарий упрощён по сравнению с реальной коммуникацией
Возможность сравнения разных моделей Результаты зависят от конкретных правил игры
Тестирование манипуляций и обмана Пока ограничено малым количеством партий

FAQ

Зачем ИИ проверять в играх вроде Among Us?
Такие тесты показывают, как модели ведут себя в условиях неопределённости и социальных взаимодействий.

Почему победа самозванца ценится выше?
Она требует не только логики, но и умелого обмана, что сложнее для ИИ.

Можно ли использовать этот бенчмарк для практических целей?
Да, он помогает оценить риски манипуляций ИИ в командных системах.

Мифы и правда

  • Миф: "ИИ не способен обманывать".
    Правда: некоторые модели успешно применяют ложь как стратегию.

  • Миф: "Большая батарея знаний делает ИИ лучшим в играх".
    Правда: решающим оказывается социальный интеллект, а не объём данных.

  • Миф: "Поддерживающая роль всегда проигрышная".
    Правда: Kimi K2 доказал, что грамотная поддержка лидеров эффективна.

3 интересных факта

  1. В бенчмарке впервые учли роль scapegoat — игрока, ошибочно обвинённого в самозванстве.

  2. GPT-5 показал редкое для ИИ сочетание лидерства и умения врать.

  3. Самыми уязвимыми оказались ИИ с чрезмерной агрессивностью в диалоге.

Исторический контекст

  • 1986 год: настольная "Мафия" изобретается в СССР.

  • 2018 год: Among Us становится популярной онлайн-версией.

  • 2020 год: всплеск популярности игры во время пандемии.

  • 2025 год: Among AIs впервые используется для теста искусственного интеллекта.

Подписывайтесь на NewsInfo.Ru

Читайте также

Владельцы iPhone пожаловались на ошибку поиска событий в сегодня в 1:18

Назначил встречу — и сам её не найдёшь: баг iPhone ставит палки в колёса планам

После выхода iOS 26 пользователи iPhone столкнулись с багом: поиск в «Календаре» работает некорректно, а исправление Apple обещает позже.

Читать полностью »
Rapid7 выявила уязвимость в OxygenOS: приложения получают доступ к SMS без разрешений сегодня в 0:13

Коды, переписка, пароли — всё на виду: баг в OnePlus позволяет шпионить через SMS

OnePlus подтвердила уязвимость в OxygenOS: приложения могут читать SMS без разрешений. Патч обещают в октябре, но что делать до обновления?

Читать полностью »
Жительница Вирджинии выиграла в Powerball, используя числа от ChatGPT — Bloomberg вчера в 23:39

Она просто спросила у ChatGPT — и стала богатой: выигрыш в лотерею, о котором мечтают все

Жительница Вирджинии выиграла в Powerball, используя числа от ChatGPT. Но главное — она направила весь приз на благотворительность.

Читать полностью »
Эксперты объяснили, почему результаты AnTuTu для iPhone и Android нельзя сравнивать вчера в 22:52

Бенчмарк без правил: как сравнения iPhone и Android вводят пользователей в заблуждение

AnTuTu показывает мощность смартфонов, но сравнение iPhone и Android напрямую вводит в заблуждение. Узнайте, как правильно оценивать устройства.

Читать полностью »
Microsoft выпустила обновление Windows 10 с исправлениями SMBv1 и Autopilot вчера в 21:19

Microsoft выпустила обновление для Windows 10 — и оно чинит баг из 1993 года

Microsoft выпустила обновление KB5066198 для Windows 10. Что оно исправляет и как готовиться к завершению поддержки системы в 2025 году?

Читать полностью »
Уязвимость в OxygenOS 12, 14 и 15 позволяет приложениям читать SMS на смартфонах OnePlus — Rapid7 вчера в 20:44

Секретные SMS на ладони у хакеров: как одна уязвимость в OnePlus открывает личные сообщения всем приложениям

Владельцам смартфонов OnePlus стоит быть осторожными: найден баг, который позволяет приложениям читать личные SMS без разрешения.

Читать полностью »
OpenAI представила GDPval — бенчмарк для оценки влияния ИИ на экономику вчера в 19:18

Деньги, а не проценты: OpenAI научилась считать, сколько ИИ приносит в экономику

OpenAI представила GDPval — новый бенчмарк, оценивающий, как ИИ справляется с реальными рабочими задачами. Первые лидеры уже известны.

Читать полностью »
iPhone 17 заряжается максимум на 28 Вт независимо от мощности адаптера — ChargerLAB вчера в 18:36

Смартфон, который не торопится: как iPhone 17 игнорирует мощные зарядки

Тесты показали, что базовый iPhone 17 заряжается быстрее предшественника, но даже мощные адаптеры не увеличивают скорость выше определённого уровня.

Читать полностью »

Новости

Антонов: дыхательная гимнастика и ходьба помогают в реабилитации после инфаркта и инсульта

Согласование перепланировки квартиры в Москве: порядок, документы и сроки

Длительное сидение вызывает застой крови и боли в пояснице — массажист Екатерина Сидоренко

Microsoft: Copilot в Edge будет посещать сайты напрямую, сохраняя трафик издателям

Можжевельник может заразить яблони и груши грибком ржавчиной — избегайте посадки рядом с плодовыми

Российские учёные создают инновационный биоматериал для улучшения лечения ран

Боковая планка и птица-собака укрепляют корпус и помогают восстановиться после травм — физиотерапевты

Острая пища безопасна для здорового желудка при умеренном употреблении — диетолог Лидия Ионова