
Деньги, а не проценты: OpenAI научилась считать, сколько ИИ приносит в экономику
OpenAI представила новый бенчмарк под названием GDPval, который оценивает не абстрактные способности искусственного интеллекта, а его реальное влияние на экономику. В отличие от привычных тестов вроде MMLU, где проверяются ответы на короткие вопросы, GDPval имитирует настоящие рабочие задачи, за которые компании платят деньги.
Идея проста: измерять не баллы в таблице, а практическую ценность ИИ в ключевых сферах экономики.
Как устроен GDPval
В бенчмарк вошло 1 320 заданий, охватывающих 44 профессии в 9 отраслях, которые формируют более 5% ВВП США. Среди них юриспруденция, финансы, инженерия, медицина, аналитика и другие.
Авторы заданий — практики с опытом в среднем 14 лет. Формат максимально приближен к реальной работе: юрист должен составить правовую записку, инженер — доработать чертеж, аналитик — подготовить таблицу или презентацию.
Оценка качества проводится "вслепую": специалисты сравнивают решения ИИ и эталонные варианты, не зная, кто автор.
Первые результаты
Первые тесты показали, что лидерами стали Claude Opus 4.1 и GPT-5. Именно эти модели чаще всего демонстрировали уровень, близкий к профессиональным решениям.
-
Claude Opus 4.1 сильнее в оформлении документов и презентаций.
-
GPT-5 выигрывает по точности и детализации.
В ряде случаев эксперты предпочли варианты ИИ вместо человеческих решений. По оценке OpenAI, в некоторых задачах ИИ выполняет работу в десятки раз быстрее и дешевле.
Сравнение: традиционные бенчмарки и GDPval
Параметр | MMLU и аналоги | GDPval |
Формат | короткие вопросы | полноценные рабочие задачи |
Тематика | общие знания | ключевые отрасли экономики |
Авторы заданий | исследователи | практикующие специалисты |
Оценка | автоматические метрики | экспертное сравнение |
Результат | баллы и проценты | применимость в реальном бизнесе |
Советы шаг за шагом: как компаниям использовать GDPval
-
Определить отрасли, где трудозатраты наиболее высоки.
-
Сравнить производительность сотрудников и ИИ по аналогичным задачам.
-
Использовать GDPval как ориентир при выборе модели для бизнеса.
-
Внедрять ИИ постепенно, начиная с простых процессов.
-
Оценивать не только скорость, но и качество, учитывая юридические и репутационные риски.
Ошибка → Последствие → Альтернатива
-
Ошибка: ориентироваться только на цену использования ИИ.
-
Последствие: падение качества решений и ошибки в критических процессах.
-
Альтернатива: использовать GDPval для подбора оптимальной модели.
-
Ошибка: ожидать, что ИИ заменит все профессии сразу.
-
Последствие: неоправданные инвестиции и сопротивление сотрудников.
-
Альтернатива: комбинировать работу специалистов и моделей.
А что если…
А что если GDPval станет стандартом отрасли? В этом случае именно он будет определять, какие профессии быстрее всего автоматизируются. Банки, юридические фирмы и IT-компании смогут рассчитывать эффективность внедрения ИИ в денежном эквиваленте, а не в процентах по тестам.
Плюсы и минусы GDPval
Плюсы | Минусы |
Приближен к реальным задачам | Сложность и дороговизна оценки |
Учитывает опыт специалистов | Результаты зависят от субъективного суждения |
Показывает экономический эффект | Пока охватывает только 9 отраслей |
Сравнивает человека и ИИ напрямую | Требует больших ресурсов для проведения |
FAQ
Чем GDPval отличается от MMLU?
MMLU проверяет знания по вопросам, GDPval — практические рабочие задачи из реальной экономики.
Какие модели показали лучшие результаты?
Лидеры — Claude Opus 4.1 и GPT-5.
Можно ли использовать GDPval в бизнесе?
Да, он помогает оценить, насколько ИИ применим в конкретной отрасли.
Мифы и правда
-
Миф: GDPval показывает, что ИИ уже заменяет специалистов.
-
Правда: ИИ демонстрирует высокий уровень, но пока работает лучше в связке с людьми.
-
Миф: такие тесты нужны только исследователям.
-
Правда: GDPval может стать инструментом для компаний, решающих вопрос автоматизации.
Три интересных факта
-
GDPval оценивает задачи из отраслей, на которые приходится более 5% ВВП США.
-
Средний стаж экспертов, составлявших задания, — около 14 лет.
-
Впервые модели сравниваются не только между собой, но и с реальными специалистами.
Исторический контекст
-
2019 год: OpenAI и другие компании начинают активно использовать MMLU.
-
2022-2024 годы: появление новых бенчмарков, но они остаются академическими.
-
2025 год: запуск GDPval — первого теста, ориентированного на измерение влияния ИИ на экономику.
Подписывайтесь на NewsInfo.Ru