ChatGPT с функцией памяти
ChatGPT с функцией памяти
Олег Белов Опубликована сегодня в 19:18

Деньги, а не проценты: OpenAI научилась считать, сколько ИИ приносит в экономику

OpenAI представила GDPval — бенчмарк для оценки влияния ИИ на экономику

OpenAI представила новый бенчмарк под названием GDPval, который оценивает не абстрактные способности искусственного интеллекта, а его реальное влияние на экономику. В отличие от привычных тестов вроде MMLU, где проверяются ответы на короткие вопросы, GDPval имитирует настоящие рабочие задачи, за которые компании платят деньги.

Идея проста: измерять не баллы в таблице, а практическую ценность ИИ в ключевых сферах экономики.

Как устроен GDPval

В бенчмарк вошло 1 320 заданий, охватывающих 44 профессии в 9 отраслях, которые формируют более 5% ВВП США. Среди них юриспруденция, финансы, инженерия, медицина, аналитика и другие.

Авторы заданий — практики с опытом в среднем 14 лет. Формат максимально приближен к реальной работе: юрист должен составить правовую записку, инженер — доработать чертеж, аналитик — подготовить таблицу или презентацию.

Оценка качества проводится "вслепую": специалисты сравнивают решения ИИ и эталонные варианты, не зная, кто автор.

Первые результаты

Первые тесты показали, что лидерами стали Claude Opus 4.1 и GPT-5. Именно эти модели чаще всего демонстрировали уровень, близкий к профессиональным решениям.

  • Claude Opus 4.1 сильнее в оформлении документов и презентаций.

  • GPT-5 выигрывает по точности и детализации.

В ряде случаев эксперты предпочли варианты ИИ вместо человеческих решений. По оценке OpenAI, в некоторых задачах ИИ выполняет работу в десятки раз быстрее и дешевле.

Сравнение: традиционные бенчмарки и GDPval

Параметр MMLU и аналоги GDPval
Формат короткие вопросы полноценные рабочие задачи
Тематика общие знания ключевые отрасли экономики
Авторы заданий исследователи практикующие специалисты
Оценка автоматические метрики экспертное сравнение
Результат баллы и проценты применимость в реальном бизнесе

Советы шаг за шагом: как компаниям использовать GDPval

  1. Определить отрасли, где трудозатраты наиболее высоки.

  2. Сравнить производительность сотрудников и ИИ по аналогичным задачам.

  3. Использовать GDPval как ориентир при выборе модели для бизнеса.

  4. Внедрять ИИ постепенно, начиная с простых процессов.

  5. Оценивать не только скорость, но и качество, учитывая юридические и репутационные риски.

Ошибка → Последствие → Альтернатива

  • Ошибка: ориентироваться только на цену использования ИИ.

  • Последствие: падение качества решений и ошибки в критических процессах.

  • Альтернатива: использовать GDPval для подбора оптимальной модели.

  • Ошибка: ожидать, что ИИ заменит все профессии сразу.

  • Последствие: неоправданные инвестиции и сопротивление сотрудников.

  • Альтернатива: комбинировать работу специалистов и моделей.

А что если…

А что если GDPval станет стандартом отрасли? В этом случае именно он будет определять, какие профессии быстрее всего автоматизируются. Банки, юридические фирмы и IT-компании смогут рассчитывать эффективность внедрения ИИ в денежном эквиваленте, а не в процентах по тестам.

Плюсы и минусы GDPval

Плюсы Минусы
Приближен к реальным задачам Сложность и дороговизна оценки
Учитывает опыт специалистов Результаты зависят от субъективного суждения
Показывает экономический эффект Пока охватывает только 9 отраслей
Сравнивает человека и ИИ напрямую Требует больших ресурсов для проведения

FAQ

Чем GDPval отличается от MMLU?
MMLU проверяет знания по вопросам, GDPval — практические рабочие задачи из реальной экономики.

Какие модели показали лучшие результаты?
Лидеры — Claude Opus 4.1 и GPT-5.

Можно ли использовать GDPval в бизнесе?
Да, он помогает оценить, насколько ИИ применим в конкретной отрасли.

Мифы и правда

  • Миф: GDPval показывает, что ИИ уже заменяет специалистов.

  • Правда: ИИ демонстрирует высокий уровень, но пока работает лучше в связке с людьми.

  • Миф: такие тесты нужны только исследователям.

  • Правда: GDPval может стать инструментом для компаний, решающих вопрос автоматизации.

Три интересных факта

  1. GDPval оценивает задачи из отраслей, на которые приходится более 5% ВВП США.

  2. Средний стаж экспертов, составлявших задания, — около 14 лет.

  3. Впервые модели сравниваются не только между собой, но и с реальными специалистами.

Исторический контекст

  • 2019 год: OpenAI и другие компании начинают активно использовать MMLU.

  • 2022-2024 годы: появление новых бенчмарков, но они остаются академическими.

  • 2025 год: запуск GDPval — первого теста, ориентированного на измерение влияния ИИ на экономику.

Подписывайтесь на NewsInfo.Ru

Читайте также

Экономика Рунета достигла 24 трлн рублей в 2024 году, прогноз на 2025 — почти 30 трлн — РАЭК сегодня в 11:44

Кибербуря до 2030-го: ИИ научится взламывать, а Рунет — обороняться

В Подмосковье стартовал РИФ-2025 — ключевое событие для цифровой экономики. Какие прогнозы озвучили эксперты и что ждёт Рунет к 2030 году?

Читать полностью »
В 2025 году число заблокированных мошеннических звонков выросло до 2,3 млрд — МТС сегодня в 10:17

От "папа, помоги" до "ваш банк": кто и как стал новой жертвой телефонных афер

Телефонные мошенники в России меняют тактику: теперь под ударом не только мужчины, но и женщины. Кто в зоне риска и как защититься?

Читать полностью »
iPhone 17 Pro разрушился при падении, а iPhone Air сохранил работу — тест TechRax сегодня в 9:19

Титан выжил, алюминий распался: что случилось с новыми iPhone после падения с 60 метров

Эксперимент TechRax показал неожиданный результат: один из новых iPhone выдержал падение с 60 метров, а другой — нет.

Читать полностью »
Microsoft и ASUS представили портативную консоль ROG Xbox Ally, предзаказ уже открыт — $599 сегодня в 8:19

ПК, Xbox или консоль будущего? Новый Ally стирает границы между платформами

Microsoft и ASUS запускают портативную консоль ROG Xbox Ally. Чем она отличается от Steam Deck и сможет ли стать новым стандартом гейминга?

Читать полностью »
Energizer представила ноутбуки с рекордной автономностью до 28 часов — The Verge сегодня в 7:19

Энергии — как у электросамоката: представлен ноутбук, который работает неделю без розетки — но с ним не пускают в самолёт

Компания Energizer представила ноутбуки с рекордным временем автономной работы. Но смогут ли они стать удобными для путешественников?

Читать полностью »
В США произошла масштабная кибератака на устройства Cisco — Bloomberg сегодня в 6:19

Сотни устройств под ударом: хакеры взломали железо, которому доверяют даже правительства

Хакеры взломали устройства Cisco, используемые в правительстве США. CISA выпустила экстренную директиву — насколько серьёзна угроза?

Читать полностью »
Британские издатели обвинили Google в потере трафика из-за AI Overviews сегодня в 5:33

"Нас читают, но не заходят": Google под огнём из-за падения трафика на СМИ

Крупнейшие британские медиа пожаловались на Google: из-за AI Overviews их трафик упал почти на 90%. Издатели требуют раскрыть статистику и прекратить давление.

Читать полностью »
Учёные ЮУрГУ создали новый антикоррозионный сплав с легированием бором сегодня в 4:29

Пластичность без потерь: российские учёные сломали хрупкость металлов одним элементом

Учёные ЮУрГУ разработали новый сплав с добавлением бора. Он сочетает прочность и пластичность, защищает от коррозии и подходит для космоса, авто и энергетики.

Читать полностью »