От медсестры до инвестбанкира: ИИ начинает выигрывать у людей в 44 профессиях

OpenAI представила GDPval — тест для оценки экономической пользы ИИ

В мире ИИ накопилось много "учебных" бенчмарков, где модели решают олимпиадные задачки и блестяще отвечают на тесты. Но бизнесу важнее другое: насколько такие системы уже способны делать экономически значимую работу. На этот вопрос OpenAI пытается ответить новым тестом GDPval — сравнением качества задач, выполненных ИИ и профессионалами-людьми в девяти ключевых отраслях США. Первая версия (GDPval-v0) ещё далека от полноты реального рабочего дня, но она уже показывает динамику: модели подбираются к уровню экспертов там, где результат можно измерить в отчётах, аналитике и прикладных рекомендациях.

Что такое GDPval и почему он важен

GDPval фокусируется на девяти отраслях, дающих львиную долю ВВП США: здравоохранение, финансы и финтех, производство и промышленная автоматизация, государственное управление (govtech), образование, логистика "последней мили", медиа и контент, энергетика и ЖКХ, профессиональные услуги (консалтинг, юридические практики). Внутри этих направлений тест охватывает 44 профессии — от инженера-программиста и аналитика инвестбанка до медсестры и журналиста. Исполнителям (людям и моделям) предлагают типичные рабочие задачи: подготовить рыночный обзор, описать конкурентную среду, составить структуру проекта, сформулировать рекомендации для руководителя.
Дальше опытные отраслевые специалисты сравнивают пары отчётов ("модель против человека") и выбирают более качественный. Итоговая метрика — "процент побед/ничьих" ИИ по всем 44 профессиям.

Ключевые результаты первой версии

OpenAI сообщает, что GPT-5-high (усиленная версия GPT-5 с дополнительными вычислительными ресурсами) была оценена как превосходящая или равная уровню экспертов в 40,6% случаев. Для контраста: GPT-4o (релиз примерно 15 месяцев назад) имела лишь 13,7% побед и ничьих. В тесте участвовал и конкурент: Claude Opus 4.1 от Anthropic показал 49% и, по оценке OpenAI, частично выиграл за счёт сильной визуализации и "приятной графики" отчётов, а не только за счёт глубины анализа. Это не приговор и не обещание "замены людей завтра": GDPval-v0 проверяет в основном качество отчётных материалов, тогда как реальная работа включает коммуникацию, итерации, согласования, юридические ограничения и ответственность за внедрение.

Как OpenAI трактует прогресс

Первичные выводы — осторожные: GDPval покрывает ограниченный класс задач, но темп улучшений заметен. Модели нового поколения уже способны брать на себя часть рутинной аналитики, чтобы специалисты переключались на более ценные активности — постановку задач, проверку гипотез, работу с рисками и стейкхолдерами.

"[Поскольку] модель хорошо справляется с некоторыми из этих задач", — сказал главный экономист OpenAI Аарон Чаттерджи.
Руководитель направления оценки OpenAI Теджал Патвардхан подчёркивает темпы: от 13,7% у GPT-4o до близко утроенного уровня у GPT-5 — всего за полтора года. В планах — расширение отраслей и сценариев, добавление интерактивных рабочих процессов, где важны память, итерации и командная динамика.

Сравнение: модели и метрики (GDPval-v0)

Модель	Итог по GDPval (победы+ничьи)	Особенности в отчётах	Контекст использования
GPT-4o	~13,7%	Базовая аналитика, меньше структурной глубины	Обучение, черновики, быстрые резюме
GPT-5	≈40% (ниже версии high)	Лучшая аргументация, стабильнее структура	Драфты для финтех, медтех, консалтинг
GPT-5-high	40,6%	Усиление за счёт доп. вычислений	Сложные сравнения, due diligence, конкурентный анализ "последней мили"
Claude Opus 4.1	49%	Сильные визуальные представления	Презентации для менеджеров, слайды, сводные отчёты

Как применить GDPval в своей компании: пошагово

Определите "рабочие" метрики качества: что именно считается хорошим результатом (точность, полный охват фактов, читаемость, готовность к принятию решений, требования комплаенса).
Выделите типовые кейсы на 2-3 страницы: инвестиционные заметки, брифы по рынку, протоколы встреч, шаблоны медтех-отчётов, производственные SOP.
Сформируйте "слепое" сравнение: дайте один и тот же бриф человеку и модели (или двум моделям) и попросите отраслевых экспертов выбрать лучший материал.
Зафиксируйте реальную экономию: время подготовки (часов), количество правок, стоимость GPU/облака, экономию на консалтинге.
Внедряйте постепенно: начинайте с низкорискованных задач (черновики), затем повышайте долю автоматизации, но сохраняйте человеческое финальное ревью.

Ошибка → Последствие → Альтернатива

• Опираться на общий "суперскор" без учёта доменных нюансов → Решения "в среднем по больнице", промах по регуляторике и терминологии → Делать отраслевой A/B-пилот на собственных шаблонах.
• Отдавать модели "как есть" задачи высокого риска (медицина, финансы) → Юр. риски, репутационные потери → Встроить двойной контроль: чек-листы и финальное утверждение экспертом.
• Оценивать только стиль и визуал → Красивая форма при слабой фактуре → Вводить оценку фактологичности и источников, проверку условных допущений.

А что если… расширить тест до "живой" работы?

Если в GDPval добавить итерации (обратную связь менеджера), доступ к внутренним данным (DWH, CRM), ограничения комплаенса и дедлайны, таблица лидеров может поменяться. Умение "слушать" правки, уточнять цели и выдерживать формат отраслевых документов (например, для фармкомпаний или госзакупок) зачастую важнее единичной "идеальной" версии отчёта.

Плюсы и минусы GDPval-v0

Плюсы	Минусы
Оценка на реальных профессиях и отраслях	Узкая выборка задач; недоучёт интерактивности
Понятная метрика "кто лучше в отчёте"	Ориентация на формат отчёта, а не процесс
Сопоставление с вкладом отраслей в ВВП	Зависимость от вкуса и брифа оценщика
Видно ускорение прогресса моделей	Непрозрачность "доп. вычислений" и стоимости

FAQ

GDPval заменяет AIME/GPQA?
Нет. Он дополняет "академические" тесты практическими задачами, где важны структура, факты и прикладные рекомендации.
Почему у Claude показатель 49%, а у GPT-5-high — 40,6%?
Отчасти из-за сильной презентационной составляющей отчётов Claude; это не всегда равно глубине анализа, но влияет на оценку.
Можно ли по GDPval выбирать модель для отрасли?
Используйте его как начальный ориентир. Дальше — пилот на ваших шаблонах, с вашими данными и регуляторными требованиями.
Заменит ли ИИ аналитиков и медсестёр?
GDPval-v0 оценивает отчёты, а не весь комплекс обязанностей. На практике ИИ снимает рутину, а финальные решения оставляет людям.
Сколько это стоит?
Стоимость зависит от модели, облака и объёма задач. В пилоте фиксируйте не только цену токена/GPU, но и экономию времени команды.

Мифы и правда (ClaimReview)

• Миф: "49% по GDPval = модель лучше половины специалистов всегда".
Правда: сравнение шло по конкретным задачам и отчётам, а не по всем функциям роли.
• Миф: "Раз GPT-5 обгоняет людей, можно выключать отделы".
Правда: без валидации и комплаенса риски перевесят экономию.
• Миф: "Достаточно красивых графиков, чтобы пройти оценку".
Правда: стиль помогает, но без фактов и источников отчёт не выдержит ревью.

3 практических факта для внедрения

При "слепых" сравнениях растёт ценность шаблонов: единый формат делает судейство честнее и ускоряет доработки.
На пилоте полезно мерить не только качество, но и "второй виток": сколько правок попросил менеджер после первой версии.
В финтехе и медтехе добавляйте чек-лист юридической корректности (disclaimers, ссылки на протоколы, версионирование).

Исторический контекст: от тестов знаний к рабочим задачам

• Поколение бенчмарков "знаний": AIME-2025 (математика в соревновательном формате), GPQA Diamond (естественные науки уровня PhD).
• Проблема насыщения: топ-модели выходят "в потолок" по ряду академических тестов.
• 2024-2025: сдвиг к "практике" — GDPval-v0 и другие прикладные метрики с отраслевыми сценариями, ближе к реальным процессам и экономическим эффектам.

Что это значит для команд

Для отделов стратегии, продукт-менеджмента, производственных ERP-команд, здравоохранения и govtech GDPval — удобная отправная точка. Он не снимает ответственности за внедрение, но помогает зафиксировать, где ИИ уже приносит пользу: быстрее собрать конкурентную карту "последней мили", сделать драфт медицинского отчёта, подготовить инвестиционную записку. Дальше важны дисциплина эксперимента, контроль качества и понятная экономика: сколько стоит один "хороший" отчёт с учётом правок, и где человеческий опыт по-прежнему незаменим.

Подписывайтесь на NewsInfo.Ru