ChatGPT с функцией памяти
ChatGPT с функцией памяти
Олег Белов Опубликована 27.09.2025 в 19:18

Деньги, а не проценты: OpenAI научилась считать, сколько ИИ приносит в экономику

OpenAI представила GDPval — бенчмарк для оценки влияния ИИ на экономику

OpenAI представила новый бенчмарк под названием GDPval, который оценивает не абстрактные способности искусственного интеллекта, а его реальное влияние на экономику. В отличие от привычных тестов вроде MMLU, где проверяются ответы на короткие вопросы, GDPval имитирует настоящие рабочие задачи, за которые компании платят деньги.

Идея проста: измерять не баллы в таблице, а практическую ценность ИИ в ключевых сферах экономики.

Как устроен GDPval

В бенчмарк вошло 1 320 заданий, охватывающих 44 профессии в 9 отраслях, которые формируют более 5% ВВП США. Среди них юриспруденция, финансы, инженерия, медицина, аналитика и другие.

Авторы заданий — практики с опытом в среднем 14 лет. Формат максимально приближен к реальной работе: юрист должен составить правовую записку, инженер — доработать чертеж, аналитик — подготовить таблицу или презентацию.

Оценка качества проводится "вслепую": специалисты сравнивают решения ИИ и эталонные варианты, не зная, кто автор.

Первые результаты

Первые тесты показали, что лидерами стали Claude Opus 4.1 и GPT-5. Именно эти модели чаще всего демонстрировали уровень, близкий к профессиональным решениям.

  • Claude Opus 4.1 сильнее в оформлении документов и презентаций.

  • GPT-5 выигрывает по точности и детализации.

В ряде случаев эксперты предпочли варианты ИИ вместо человеческих решений. По оценке OpenAI, в некоторых задачах ИИ выполняет работу в десятки раз быстрее и дешевле.

Сравнение: традиционные бенчмарки и GDPval

Параметр MMLU и аналоги GDPval
Формат короткие вопросы полноценные рабочие задачи
Тематика общие знания ключевые отрасли экономики
Авторы заданий исследователи практикующие специалисты
Оценка автоматические метрики экспертное сравнение
Результат баллы и проценты применимость в реальном бизнесе

Советы шаг за шагом: как компаниям использовать GDPval

  1. Определить отрасли, где трудозатраты наиболее высоки.

  2. Сравнить производительность сотрудников и ИИ по аналогичным задачам.

  3. Использовать GDPval как ориентир при выборе модели для бизнеса.

  4. Внедрять ИИ постепенно, начиная с простых процессов.

  5. Оценивать не только скорость, но и качество, учитывая юридические и репутационные риски.

Ошибка → Последствие → Альтернатива

  • Ошибка: ориентироваться только на цену использования ИИ.

  • Последствие: падение качества решений и ошибки в критических процессах.

  • Альтернатива: использовать GDPval для подбора оптимальной модели.

  • Ошибка: ожидать, что ИИ заменит все профессии сразу.

  • Последствие: неоправданные инвестиции и сопротивление сотрудников.

  • Альтернатива: комбинировать работу специалистов и моделей.

А что если…

А что если GDPval станет стандартом отрасли? В этом случае именно он будет определять, какие профессии быстрее всего автоматизируются. Банки, юридические фирмы и IT-компании смогут рассчитывать эффективность внедрения ИИ в денежном эквиваленте, а не в процентах по тестам.

Плюсы и минусы GDPval

Плюсы Минусы
Приближен к реальным задачам Сложность и дороговизна оценки
Учитывает опыт специалистов Результаты зависят от субъективного суждения
Показывает экономический эффект Пока охватывает только 9 отраслей
Сравнивает человека и ИИ напрямую Требует больших ресурсов для проведения

FAQ

Чем GDPval отличается от MMLU?
MMLU проверяет знания по вопросам, GDPval — практические рабочие задачи из реальной экономики.

Какие модели показали лучшие результаты?
Лидеры — Claude Opus 4.1 и GPT-5.

Можно ли использовать GDPval в бизнесе?
Да, он помогает оценить, насколько ИИ применим в конкретной отрасли.

Мифы и правда

  • Миф: GDPval показывает, что ИИ уже заменяет специалистов.

  • Правда: ИИ демонстрирует высокий уровень, но пока работает лучше в связке с людьми.

  • Миф: такие тесты нужны только исследователям.

  • Правда: GDPval может стать инструментом для компаний, решающих вопрос автоматизации.

Три интересных факта

  1. GDPval оценивает задачи из отраслей, на которые приходится более 5% ВВП США.

  2. Средний стаж экспертов, составлявших задания, — около 14 лет.

  3. Впервые модели сравниваются не только между собой, но и с реальными специалистами.

Исторический контекст

  • 2019 год: OpenAI и другие компании начинают активно использовать MMLU.

  • 2022-2024 годы: появление новых бенчмарков, но они остаются академическими.

  • 2025 год: запуск GDPval — первого теста, ориентированного на измерение влияния ИИ на экономику.

Подписывайтесь на NewsInfo.Ru

Читайте также

Православный мессенджер Зосима выйдет в первой половине 2026 года — Агапов 06.12.2025 в 7:57
Секретный проект раскрыт: Зосима выйдет в 2026-м и обещает стать главным духовным каналом

Православный мессенджер "Зосима" готовят к публичному запуску в 2026-м: тест уже прошли тысячи пользователей, а дальше всё решит масштабирование.

Читать полностью »
Конфликт приложений может замедлять работу гаджета — IT-эксперт Муртазин 05.12.2025 в 13:34
Когда телефон живет своей жизнью: из-за этих процессов гаджет начинает тормозить

Аналитик Эльдар Муртазин объяснил NewsInfo почему телефон может перегреваться и "тормозить".

Читать полностью »
Pokemon TCG Pocket признана лучшей игрой для iPhone — App Store Awards 2025 05.12.2025 в 13:25
Игры и приложения года раскрыты: пользователи не ожидали такого расклада от Apple

Премия App Store Awards 2025 изменила расстановку сил между крупными студиями и независимыми разработчиками, показав неожиданные приоритеты индустрии.

Читать полностью »
Модели телевизоров от Tuvio, TCL и Hisense названы лучшими до 17 тысяч рублей — Палач 05.12.2025 в 13:15
Бюджетные телевизоры поражают возможностями: не думал, что за такие деньги бывает такое

Подборка трёх доступных телевизоров до 17 тысяч рублей показывает, как бюджетный сегмент постепенно перенимает функции более дорогих моделей, сохраняя привлекательную цену.

Читать полностью »
Теневые каналы в Telegram живут в среднем семь месяцев — Лаборатория Касперского 05.12.2025 в 9:36
Лаборатория Касперского раскрыла правду: почему даже крупные теневые каналы в Telegram живут недолго

Kaspersky изучила 800+ теневых Telegram-каналов: в среднем они живут около семи месяцев. Почему блокировки усилились и куда уходят крупные сообщества?

Читать полностью »
Расширения WeTab и Infinity V+ собирали данные 4 млн пользователей — KOI Security 05.12.2025 в 8:57
Осторожно, обновление: как безобидное расширение после апдейта начало похищать ваши пароли

WeTab и Infinity V+ подозревают в скрытом сборе данных через обновления. Как работала "долгая" атака и почему пострадали миллионы пользователей?

Читать полностью »
Вредоносное ПО для Android закрепляется в системе — ТАСС 05.12.2025 в 8:23
Мошенники знают ваши слабые места: почему вы добровольно установите троян под видом YouTube Pro

Под видом "18+" и "расширенных" TikTok и YouTube пользователям подсовывают трояны. Как устроена сеть сайтов и что нашли операторы.

Читать полностью »
MacBook Air M1 признали актуальным в 2025 году — iGuides 04.12.2025 в 21:42
Этот недорогой MacBook снова все обсуждают — причина удивила даже опытных пользователей

Пользователи обсуждают, насколько старый MacBook Air M1 сохраняет актуальность на фоне падения цен и долгой поддержки macOS, и какие ограничения остаются заметными.

Читать полностью »