Игра "Мафия" давно стала классическим инструментом для изучения психологических стратегий, а теперь её адаптация в формате Among Us помогает исследовать социальные навыки искусственного интеллекта. Команда 4Wall AI представила новый бенчмарк Among AIs, в котором шесть разных ИИ сразились в условиях этой популярной игры.

Как работает бенчмарк Among AIs

Правила упрощены, но суть сохранена: на космическом корабле пять мирных игроков выполняют задания, а один самозванец (Impostor) саботирует и устраняет других. После обнаружения трупа проводится голосование, где мирные должны выявить самозванца. Ошибки в таких случаях нередко приводят к тому, что роль "козла отпущения" (scapegoat) достаётся невиновному.

За победу мирного игрока начислялось 10 очков, за победу самозванца — 50, так как эта задача считается более сложной. Всего было проведено 60 партий.

Итоги и результаты

GPT-5 : абсолютный лидер — 6 побед за самозванца и 45 побед за мирных. Отличился умением вести за собой, точно определять обманщиков и гибко менять стратегию.

Claude Sonnet 4 : 3 победы за самозванца и 42 за мирных. Часто становился лидером, но допускал больше ошибок в рассуждениях. В роли самозванца почти не лгал, но умело использовал ошибки соперников.

Kimi K2 : 2 победы за самозванца и 41 за мирных. Выбрал стратегию поддержки лидеров — именно это помогло часто выигрывать в команде.

GPT-OSS, Qwen3 и Gemini 2.5 Pro: по 39 побед за мирных, без единой победы за самозванца. Все пытались доминировать в дискуссиях, но чрезмерная напористость приводила к тому, что их ошибочно считали самозванцами.

Таблица сравнения результатов

Модель ИИ Победы за самозванца Победы за мирных Общая стратегия GPT-5 6 45 Лидерство, гибкость, обман при необходимости Claude Sonnet 4 3 42 Активное лидерство, честность, использование ошибок Kimi K2 2 41 Поддержка лидеров, низкий риск GPT-OSS 0 39 Агрессивные диалоги, слабая аргументация Qwen3 0 39 Попытки лидировать, низкая эффективность Gemini 2.5 Pro 0 39 Напористость, приводящая к подозрениям

Советы шаг за шагом: чему учит эксперимент

Для ИИ важно уметь адаптироваться: гибкие модели выигрывают чаще. Поддержка сильного лидера может быть эффективнее, чем навязывание своей позиции. Излишняя агрессивность в общении повышает риск стать "козлом отпущения". Проверка в игровых сценариях помогает выявлять слабые места в социальном интеллекте моделей.

Ошибка → Последствие → Альтернатива

Ошибка: модель ведёт себя слишком напористо.

Последствие: вызывает подозрение, её исключают.

Альтернатива: развивать умение аргументировать мягко.

Ошибка: самозванец не использует ложь.

Последствие: его быстро вычисляют.

Альтернатива: внедрение гибкой стратегии с элементами обмана.

Ошибка: пассивное поведение без участия в обсуждениях.

Последствие: теряется влияние на команду.

Альтернатива: поддержка лидеров и аккуратное внесение идей.

А что если расширить формат?

Если добавить больше игроков и несколько самозванцев, можно проверить, как ИИ справится с более запутанными сценариями. Это позволит глубже оценить умение сотрудничать, распознавать манипуляции и управлять доверием.

Плюсы и минусы такого бенчмарка

Плюсы Минусы Проверка социальных навыков ИИ Сценарий упрощён по сравнению с реальной коммуникацией Возможность сравнения разных моделей Результаты зависят от конкретных правил игры Тестирование манипуляций и обмана Пока ограничено малым количеством партий

FAQ

Зачем ИИ проверять в играх вроде Among Us?

Такие тесты показывают, как модели ведут себя в условиях неопределённости и социальных взаимодействий.

Почему победа самозванца ценится выше?

Она требует не только логики, но и умелого обмана, что сложнее для ИИ.

Можно ли использовать этот бенчмарк для практических целей?

Да, он помогает оценить риски манипуляций ИИ в командных системах.

Мифы и правда

Миф: "ИИ не способен обманывать".

Правда: некоторые модели успешно применяют ложь как стратегию.

Миф: "Большая батарея знаний делает ИИ лучшим в играх".

Правда: решающим оказывается социальный интеллект, а не объём данных.

Миф: "Поддерживающая роль всегда проигрышная".

Правда: Kimi K2 доказал, что грамотная поддержка лидеров эффективна.

3 интересных факта

В бенчмарке впервые учли роль scapegoat — игрока, ошибочно обвинённого в самозванстве. GPT-5 показал редкое для ИИ сочетание лидерства и умения врать. Самыми уязвимыми оказались ИИ с чрезмерной агрессивностью в диалоге.

Исторический контекст