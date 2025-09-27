Россия Мир Экономика Происшествия Все рубрики
ChatGPT с функцией памяти
Олег Белов Опубликована сегодня в 19:18

Деньги, а не проценты: OpenAI научилась считать, сколько ИИ приносит в экономику

OpenAI представила GDPval — бенчмарк для оценки влияния ИИ на экономику

OpenAI представила новый бенчмарк под названием GDPval, который оценивает не абстрактные способности искусственного интеллекта, а его реальное влияние на экономику. В отличие от привычных тестов вроде MMLU, где проверяются ответы на короткие вопросы, GDPval имитирует настоящие рабочие задачи, за которые компании платят деньги.

Идея проста: измерять не баллы в таблице, а практическую ценность ИИ в ключевых сферах экономики.

Как устроен GDPval

В бенчмарк вошло 1 320 заданий, охватывающих 44 профессии в 9 отраслях, которые формируют более 5% ВВП США. Среди них юриспруденция, финансы, инженерия, медицина, аналитика и другие.

Авторы заданий — практики с опытом в среднем 14 лет. Формат максимально приближен к реальной работе: юрист должен составить правовую записку, инженер — доработать чертеж, аналитик — подготовить таблицу или презентацию.

Оценка качества проводится "вслепую": специалисты сравнивают решения ИИ и эталонные варианты, не зная, кто автор.

Первые результаты

Первые тесты показали, что лидерами стали Claude Opus 4.1 и GPT-5. Именно эти модели чаще всего демонстрировали уровень, близкий к профессиональным решениям.

  • Claude Opus 4.1 сильнее в оформлении документов и презентаций.

  • GPT-5 выигрывает по точности и детализации.

В ряде случаев эксперты предпочли варианты ИИ вместо человеческих решений. По оценке OpenAI, в некоторых задачах ИИ выполняет работу в десятки раз быстрее и дешевле.

Сравнение: традиционные бенчмарки и GDPval

Параметр MMLU и аналоги GDPval
Формат короткие вопросы полноценные рабочие задачи
Тематика общие знания ключевые отрасли экономики
Авторы заданий исследователи практикующие специалисты
Оценка автоматические метрики экспертное сравнение
Результат баллы и проценты применимость в реальном бизнесе

Советы шаг за шагом: как компаниям использовать GDPval

  1. Определить отрасли, где трудозатраты наиболее высоки.

  2. Сравнить производительность сотрудников и ИИ по аналогичным задачам.

  3. Использовать GDPval как ориентир при выборе модели для бизнеса.

  4. Внедрять ИИ постепенно, начиная с простых процессов.

  5. Оценивать не только скорость, но и качество, учитывая юридические и репутационные риски.

Ошибка → Последствие → Альтернатива

  • Ошибка: ориентироваться только на цену использования ИИ.

  • Последствие: падение качества решений и ошибки в критических процессах.

  • Альтернатива: использовать GDPval для подбора оптимальной модели.

  • Ошибка: ожидать, что ИИ заменит все профессии сразу.

  • Последствие: неоправданные инвестиции и сопротивление сотрудников.

  • Альтернатива: комбинировать работу специалистов и моделей.

А что если…

А что если GDPval станет стандартом отрасли? В этом случае именно он будет определять, какие профессии быстрее всего автоматизируются. Банки, юридические фирмы и IT-компании смогут рассчитывать эффективность внедрения ИИ в денежном эквиваленте, а не в процентах по тестам.

Плюсы и минусы GDPval

Плюсы Минусы
Приближен к реальным задачам Сложность и дороговизна оценки
Учитывает опыт специалистов Результаты зависят от субъективного суждения
Показывает экономический эффект Пока охватывает только 9 отраслей
Сравнивает человека и ИИ напрямую Требует больших ресурсов для проведения

FAQ

Чем GDPval отличается от MMLU?
MMLU проверяет знания по вопросам, GDPval — практические рабочие задачи из реальной экономики.

Какие модели показали лучшие результаты?
Лидеры — Claude Opus 4.1 и GPT-5.

Можно ли использовать GDPval в бизнесе?
Да, он помогает оценить, насколько ИИ применим в конкретной отрасли.

Мифы и правда

  • Миф: GDPval показывает, что ИИ уже заменяет специалистов.

  • Правда: ИИ демонстрирует высокий уровень, но пока работает лучше в связке с людьми.

  • Миф: такие тесты нужны только исследователям.

  • Правда: GDPval может стать инструментом для компаний, решающих вопрос автоматизации.

Три интересных факта

  1. GDPval оценивает задачи из отраслей, на которые приходится более 5% ВВП США.

  2. Средний стаж экспертов, составлявших задания, — около 14 лет.

  3. Впервые модели сравниваются не только между собой, но и с реальными специалистами.

Исторический контекст

  • 2019 год: OpenAI и другие компании начинают активно использовать MMLU.

  • 2022-2024 годы: появление новых бенчмарков, но они остаются академическими.

  • 2025 год: запуск GDPval — первого теста, ориентированного на измерение влияния ИИ на экономику.

