
От медсестры до инвестбанкира: ИИ начинает выигрывать у людей в 44 профессиях
В мире ИИ накопилось много "учебных" бенчмарков, где модели решают олимпиадные задачки и блестяще отвечают на тесты. Но бизнесу важнее другое: насколько такие системы уже способны делать экономически значимую работу. На этот вопрос OpenAI пытается ответить новым тестом GDPval — сравнением качества задач, выполненных ИИ и профессионалами-людьми в девяти ключевых отраслях США. Первая версия (GDPval-v0) ещё далека от полноты реального рабочего дня, но она уже показывает динамику: модели подбираются к уровню экспертов там, где результат можно измерить в отчётах, аналитике и прикладных рекомендациях.
Что такое GDPval и почему он важен
GDPval фокусируется на девяти отраслях, дающих львиную долю ВВП США: здравоохранение, финансы и финтех, производство и промышленная автоматизация, государственное управление (govtech), образование, логистика "последней мили", медиа и контент, энергетика и ЖКХ, профессиональные услуги (консалтинг, юридические практики). Внутри этих направлений тест охватывает 44 профессии — от инженера-программиста и аналитика инвестбанка до медсестры и журналиста. Исполнителям (людям и моделям) предлагают типичные рабочие задачи: подготовить рыночный обзор, описать конкурентную среду, составить структуру проекта, сформулировать рекомендации для руководителя.
Дальше опытные отраслевые специалисты сравнивают пары отчётов ("модель против человека") и выбирают более качественный. Итоговая метрика — "процент побед/ничьих" ИИ по всем 44 профессиям.
Ключевые результаты первой версии
OpenAI сообщает, что GPT-5-high (усиленная версия GPT-5 с дополнительными вычислительными ресурсами) была оценена как превосходящая или равная уровню экспертов в 40,6% случаев. Для контраста: GPT-4o (релиз примерно 15 месяцев назад) имела лишь 13,7% побед и ничьих. В тесте участвовал и конкурент: Claude Opus 4.1 от Anthropic показал 49% и, по оценке OpenAI, частично выиграл за счёт сильной визуализации и "приятной графики" отчётов, а не только за счёт глубины анализа. Это не приговор и не обещание "замены людей завтра": GDPval-v0 проверяет в основном качество отчётных материалов, тогда как реальная работа включает коммуникацию, итерации, согласования, юридические ограничения и ответственность за внедрение.
Как OpenAI трактует прогресс
Первичные выводы — осторожные: GDPval покрывает ограниченный класс задач, но темп улучшений заметен. Модели нового поколения уже способны брать на себя часть рутинной аналитики, чтобы специалисты переключались на более ценные активности — постановку задач, проверку гипотез, работу с рисками и стейкхолдерами.
"[Поскольку] модель хорошо справляется с некоторыми из этих задач", — сказал главный экономист OpenAI Аарон Чаттерджи.
Руководитель направления оценки OpenAI Теджал Патвардхан подчёркивает темпы: от 13,7% у GPT-4o до близко утроенного уровня у GPT-5 — всего за полтора года. В планах — расширение отраслей и сценариев, добавление интерактивных рабочих процессов, где важны память, итерации и командная динамика.
Сравнение: модели и метрики (GDPval-v0)
Модель | Итог по GDPval (победы+ничьи) | Особенности в отчётах | Контекст использования |
GPT-4o | ~13,7% | Базовая аналитика, меньше структурной глубины | Обучение, черновики, быстрые резюме |
GPT-5 | ≈40% (ниже версии high) | Лучшая аргументация, стабильнее структура | Драфты для финтех, медтех, консалтинг |
GPT-5-high | 40,6% | Усиление за счёт доп. вычислений | Сложные сравнения, due diligence, конкурентный анализ "последней мили" |
Claude Opus 4.1 | 49% | Сильные визуальные представления | Презентации для менеджеров, слайды, сводные отчёты |
Как применить GDPval в своей компании: пошагово
-
Определите "рабочие" метрики качества: что именно считается хорошим результатом (точность, полный охват фактов, читаемость, готовность к принятию решений, требования комплаенса).
-
Выделите типовые кейсы на 2-3 страницы: инвестиционные заметки, брифы по рынку, протоколы встреч, шаблоны медтех-отчётов, производственные SOP.
-
Сформируйте "слепое" сравнение: дайте один и тот же бриф человеку и модели (или двум моделям) и попросите отраслевых экспертов выбрать лучший материал.
-
Зафиксируйте реальную экономию: время подготовки (часов), количество правок, стоимость GPU/облака, экономию на консалтинге.
-
Внедряйте постепенно: начинайте с низкорискованных задач (черновики), затем повышайте долю автоматизации, но сохраняйте человеческое финальное ревью.
Ошибка → Последствие → Альтернатива
• Опираться на общий "суперскор" без учёта доменных нюансов → Решения "в среднем по больнице", промах по регуляторике и терминологии → Делать отраслевой A/B-пилот на собственных шаблонах.
• Отдавать модели "как есть" задачи высокого риска (медицина, финансы) → Юр. риски, репутационные потери → Встроить двойной контроль: чек-листы и финальное утверждение экспертом.
• Оценивать только стиль и визуал → Красивая форма при слабой фактуре → Вводить оценку фактологичности и источников, проверку условных допущений.
А что если… расширить тест до "живой" работы?
Если в GDPval добавить итерации (обратную связь менеджера), доступ к внутренним данным (DWH, CRM), ограничения комплаенса и дедлайны, таблица лидеров может поменяться. Умение "слушать" правки, уточнять цели и выдерживать формат отраслевых документов (например, для фармкомпаний или госзакупок) зачастую важнее единичной "идеальной" версии отчёта.
Плюсы и минусы GDPval-v0
Плюсы | Минусы |
Оценка на реальных профессиях и отраслях | Узкая выборка задач; недоучёт интерактивности |
Понятная метрика "кто лучше в отчёте" | Ориентация на формат отчёта, а не процесс |
Сопоставление с вкладом отраслей в ВВП | Зависимость от вкуса и брифа оценщика |
Видно ускорение прогресса моделей | Непрозрачность "доп. вычислений" и стоимости |
FAQ
GDPval заменяет AIME/GPQA?
Нет. Он дополняет "академические" тесты практическими задачами, где важны структура, факты и прикладные рекомендации.
Почему у Claude показатель 49%, а у GPT-5-high — 40,6%?
Отчасти из-за сильной презентационной составляющей отчётов Claude; это не всегда равно глубине анализа, но влияет на оценку.
Можно ли по GDPval выбирать модель для отрасли?
Используйте его как начальный ориентир. Дальше — пилот на ваших шаблонах, с вашими данными и регуляторными требованиями.
Заменит ли ИИ аналитиков и медсестёр?
GDPval-v0 оценивает отчёты, а не весь комплекс обязанностей. На практике ИИ снимает рутину, а финальные решения оставляет людям.
Сколько это стоит?
Стоимость зависит от модели, облака и объёма задач. В пилоте фиксируйте не только цену токена/GPU, но и экономию времени команды.
Мифы и правда (ClaimReview)
• Миф: "49% по GDPval = модель лучше половины специалистов всегда".
Правда: сравнение шло по конкретным задачам и отчётам, а не по всем функциям роли.
• Миф: "Раз GPT-5 обгоняет людей, можно выключать отделы".
Правда: без валидации и комплаенса риски перевесят экономию.
• Миф: "Достаточно красивых графиков, чтобы пройти оценку".
Правда: стиль помогает, но без фактов и источников отчёт не выдержит ревью.
3 практических факта для внедрения
-
При "слепых" сравнениях растёт ценность шаблонов: единый формат делает судейство честнее и ускоряет доработки.
-
На пилоте полезно мерить не только качество, но и "второй виток": сколько правок попросил менеджер после первой версии.
-
В финтехе и медтехе добавляйте чек-лист юридической корректности (disclaimers, ссылки на протоколы, версионирование).
Исторический контекст: от тестов знаний к рабочим задачам
• Поколение бенчмарков "знаний": AIME-2025 (математика в соревновательном формате), GPQA Diamond (естественные науки уровня PhD).
• Проблема насыщения: топ-модели выходят "в потолок" по ряду академических тестов.
• 2024-2025: сдвиг к "практике" — GDPval-v0 и другие прикладные метрики с отраслевыми сценариями, ближе к реальным процессам и экономическим эффектам.
Что это значит для команд
Для отделов стратегии, продукт-менеджмента, производственных ERP-команд, здравоохранения и govtech GDPval — удобная отправная точка. Он не снимает ответственности за внедрение, но помогает зафиксировать, где ИИ уже приносит пользу: быстрее собрать конкурентную карту "последней мили", сделать драфт медицинского отчёта, подготовить инвестиционную записку. Дальше важны дисциплина эксперимента, контроль качества и понятная экономика: сколько стоит один "хороший" отчёт с учётом правок, и где человеческий опыт по-прежнему незаменим.
Подписывайтесь на NewsInfo.Ru