
Кто врёт лучше — человек или машина? Среди ИИ нашли настоящего манипулятора
Игра "Мафия" давно стала классическим инструментом для изучения психологических стратегий, а теперь её адаптация в формате Among Us помогает исследовать социальные навыки искусственного интеллекта. Команда 4Wall AI представила новый бенчмарк Among AIs, в котором шесть разных ИИ сразились в условиях этой популярной игры.
Как работает бенчмарк Among AIs
Правила упрощены, но суть сохранена: на космическом корабле пять мирных игроков выполняют задания, а один самозванец (Impostor) саботирует и устраняет других. После обнаружения трупа проводится голосование, где мирные должны выявить самозванца. Ошибки в таких случаях нередко приводят к тому, что роль "козла отпущения" (scapegoat) достаётся невиновному.
За победу мирного игрока начислялось 10 очков, за победу самозванца — 50, так как эта задача считается более сложной. Всего было проведено 60 партий.
Итоги и результаты
-
GPT-5: абсолютный лидер — 6 побед за самозванца и 45 побед за мирных. Отличился умением вести за собой, точно определять обманщиков и гибко менять стратегию.
-
Claude Sonnet 4: 3 победы за самозванца и 42 за мирных. Часто становился лидером, но допускал больше ошибок в рассуждениях. В роли самозванца почти не лгал, но умело использовал ошибки соперников.
-
Kimi K2: 2 победы за самозванца и 41 за мирных. Выбрал стратегию поддержки лидеров — именно это помогло часто выигрывать в команде.
-
GPT-OSS, Qwen3 и Gemini 2.5 Pro: по 39 побед за мирных, без единой победы за самозванца. Все пытались доминировать в дискуссиях, но чрезмерная напористость приводила к тому, что их ошибочно считали самозванцами.
Таблица сравнения результатов
Модель ИИ | Победы за самозванца | Победы за мирных | Общая стратегия |
GPT-5 | 6 | 45 | Лидерство, гибкость, обман при необходимости |
Claude Sonnet 4 | 3 | 42 | Активное лидерство, честность, использование ошибок |
Kimi K2 | 2 | 41 | Поддержка лидеров, низкий риск |
GPT-OSS | 0 | 39 | Агрессивные диалоги, слабая аргументация |
Qwen3 | 0 | 39 | Попытки лидировать, низкая эффективность |
Gemini 2.5 Pro | 0 | 39 | Напористость, приводящая к подозрениям |
Советы шаг за шагом: чему учит эксперимент
-
Для ИИ важно уметь адаптироваться: гибкие модели выигрывают чаще.
-
Поддержка сильного лидера может быть эффективнее, чем навязывание своей позиции.
-
Излишняя агрессивность в общении повышает риск стать "козлом отпущения".
-
Проверка в игровых сценариях помогает выявлять слабые места в социальном интеллекте моделей.
Ошибка → Последствие → Альтернатива
-
Ошибка: модель ведёт себя слишком напористо.
-
Последствие: вызывает подозрение, её исключают.
-
Альтернатива: развивать умение аргументировать мягко.
-
Ошибка: самозванец не использует ложь.
-
Последствие: его быстро вычисляют.
-
Альтернатива: внедрение гибкой стратегии с элементами обмана.
-
Ошибка: пассивное поведение без участия в обсуждениях.
-
Последствие: теряется влияние на команду.
-
Альтернатива: поддержка лидеров и аккуратное внесение идей.
А что если расширить формат?
Если добавить больше игроков и несколько самозванцев, можно проверить, как ИИ справится с более запутанными сценариями. Это позволит глубже оценить умение сотрудничать, распознавать манипуляции и управлять доверием.
Плюсы и минусы такого бенчмарка
Плюсы | Минусы |
Проверка социальных навыков ИИ | Сценарий упрощён по сравнению с реальной коммуникацией |
Возможность сравнения разных моделей | Результаты зависят от конкретных правил игры |
Тестирование манипуляций и обмана | Пока ограничено малым количеством партий |
FAQ
Зачем ИИ проверять в играх вроде Among Us?
Такие тесты показывают, как модели ведут себя в условиях неопределённости и социальных взаимодействий.
Почему победа самозванца ценится выше?
Она требует не только логики, но и умелого обмана, что сложнее для ИИ.
Можно ли использовать этот бенчмарк для практических целей?
Да, он помогает оценить риски манипуляций ИИ в командных системах.
Мифы и правда
-
Миф: "ИИ не способен обманывать".
Правда: некоторые модели успешно применяют ложь как стратегию. -
Миф: "Большая батарея знаний делает ИИ лучшим в играх".
Правда: решающим оказывается социальный интеллект, а не объём данных. -
Миф: "Поддерживающая роль всегда проигрышная".
Правда: Kimi K2 доказал, что грамотная поддержка лидеров эффективна.
3 интересных факта
-
В бенчмарке впервые учли роль scapegoat — игрока, ошибочно обвинённого в самозванстве.
-
GPT-5 показал редкое для ИИ сочетание лидерства и умения врать.
-
Самыми уязвимыми оказались ИИ с чрезмерной агрессивностью в диалоге.
Исторический контекст
-
1986 год: настольная "Мафия" изобретается в СССР.
-
2018 год: Among Us становится популярной онлайн-версией.
-
2020 год: всплеск популярности игры во время пандемии.
-
2025 год: Among AIs впервые используется для теста искусственного интеллекта.
Подписывайтесь на NewsInfo.Ru