Генеральный директор OpenAI Сэм Альтман рассказал, что следующая версия ChatGPT — условная GPT-6 - будет оцениваться по совершенно новым критериям. Вместо привычных тестов и бенчмарков разработчики собираются измерять, какую реальную ценность модель приносит пользователям и компаниям.

От тестов к практической пользе

В интервью исследователю искусственного интеллекта Роуэну Ченгу Альтман объяснил, что OpenAI работает над новой метрикой под названием GDPval - от слов Gross Domestic Product value. По сути, она должна отражать вклад модели в реальную экономическую активность: сколько пользы и эффективности она создаёт в рабочих процессах, проектах и бизнесах.

"Эффективность следующего поколения ChatGPT будут оценивать по созданной ценности, а не по набору тестов", — заявил Сэм Альтман.

Почему старые бенчмарки больше не работают

Сегодняшние тесты — вроде MMLU, ARC или GSM — проверяют точность ответов на короткие задачи. Однако, по словам Альтмана, они не отражают главного: способность модели быть надёжным помощником на протяжении долгих и сложных процессов.

GPT-6 должна продемонстрировать устойчивость в многошаговых сценариях — когда ИИ не просто отвечает на вопросы, а работает как агент, выполняющий задачи часами или даже днями.

"Агенты — не демонстрация, а будущий производственный контур компаний", — подчеркнул Альтман.

Именно таких автономных помощников OpenAI видит как основу будущей экономики — от организации встреч и анализа данных до разработки приложений и ведения бухгалтерии.

Новый акцент: ИИ как инструмент действия

Если предыдущие поколения GPT фокусировались на знаниях и языковых способностях, то GPT-6, по словам разработчиков, будет измеряться по способности доводить дела до результата. Важными станут не просто правильные ответы, а:

• завершённые задачи;

• устойчивость к ошибкам и сбоям;

• качество взаимодействия с внешними инструментами и API.

OpenAI уже тестирует архитектуры, где GPT-6 управляет виртуальными агентами, способными координировать сложные рабочие процессы.

Появление "компаний без сотрудников"

Альтман также подтвердил интерес к концепции zero-person companies - компаний с нулевым штатом, где люди формулируют цели, а все операционные функции выполняют ИИ-агенты.

"Подобные структуры могут появиться раньше, чем ожидается, и станут тестовой площадкой для оценки GPT-6 по новой метрике", — отметил глава OpenAI.

Такие бизнесы станут своеобразными лабораториями для GDPval — метрики, которая будет измерять, насколько искусственный интеллект способен самостоятельно создавать экономическую ценность.

Как будет работать GDPval

По предварительной информации, новая система оценки может включать несколько уровней:

Пользовательскую ценность - насколько ИИ экономит время и снижает трудозатраты. Бизнес-эффект - насколько GPT-6 повышает прибыль или снижает издержки компании. Экономический вклад - доля, которую автономные агенты вносят в совокупную производительность труда.

Иными словами, OpenAI хочет перевести оценку интеллекта из академической в экономическую плоскость.

Почему это важно для индустрии

С переходом к метрике GDPval OpenAI может изменить стандарты всего рынка ИИ. Если сейчас компании соревнуются в тестах вроде MMLU или HumanEval, то в будущем главным показателем станет сколько пользы приносит модель - от автоматизации процессов до создания новых продуктов.

Для бизнеса это означает появление более понятных показателей эффективности: можно будет измерять ROI (окупаемость инвестиций) не только от внедрения технологий, но и от конкретных действий ИИ.

А что если… GPT-6 действительно станет "экономическим агентом"?

Если новая модель окажется достаточно надёжной, компании смогут передавать ей целые блоки операций — аналитику, клиентскую поддержку, документацию, логистику. В перспективе ИИ сможет выступать не только как инструмент, но и как самостоятельная единица экономической деятельности.

Это создаёт и новые вызовы: как регулировать "агентские компании", кто несёт ответственность за их решения, и как измерять их производительность в глобальном масштабе.

Плюсы и минусы нового подхода

Плюсы Минусы Оценка реальной пользы ИИ, а не тестовых баллов Сложность измерения нематериальной ценности Сдвиг фокуса к практическому применению Возможность манипуляции данными о "созданной ценности" Встраивание ИИ в экономику на уровне KPI Требуется стандартизация и контроль Развитие концепции автономных агентов Риски зависимости бизнеса от ИИ-инфраструктуры

FAQ

Что такое GDPval?

Это новая метрика OpenAI, которая будет измерять, сколько реальной экономической пользы приносит ИИ.

Почему OpenAI отказывается от старых тестов?

Потому что они не показывают, как ИИ справляется с длительными, реальными задачами — например, ведением проектов или управлением агентами.

Что такое zero-person companies?

Это компании, где все функции, кроме постановки целей, выполняются искусственным интеллектом. Люди задают направление, а ИИ работает автономно.

Когда выйдет GPT-6?

OpenAI не раскрывает сроки, но ожидается, что релиз произойдёт не ранее 2026 года.

Исторический контекст

Изначально OpenAI оценивала модели по академическим метрикам — от языковых тестов до задач логики. Но уже с GPT-4 и ChatGPT 4o компания перешла к фокусу на реальном взаимодействии с пользователями. Теперь же OpenAI делает шаг дальше — превращая ИИ из инструмента для общения в экономический механизм, который можно измерить и оценить.