Искусственный интеллект
Искусственный интеллект
Олег Белов Опубликована сегодня в 19:18

От медсестры до инвестбанкира: ИИ начинает выигрывать у людей в 44 профессиях

OpenAI представила GDPval — тест для оценки экономической пользы ИИ

В мире ИИ накопилось много "учебных" бенчмарков, где модели решают олимпиадные задачки и блестяще отвечают на тесты. Но бизнесу важнее другое: насколько такие системы уже способны делать экономически значимую работу. На этот вопрос OpenAI пытается ответить новым тестом GDPval — сравнением качества задач, выполненных ИИ и профессионалами-людьми в девяти ключевых отраслях США. Первая версия (GDPval-v0) ещё далека от полноты реального рабочего дня, но она уже показывает динамику: модели подбираются к уровню экспертов там, где результат можно измерить в отчётах, аналитике и прикладных рекомендациях.

Что такое GDPval и почему он важен

GDPval фокусируется на девяти отраслях, дающих львиную долю ВВП США: здравоохранение, финансы и финтех, производство и промышленная автоматизация, государственное управление (govtech), образование, логистика "последней мили", медиа и контент, энергетика и ЖКХ, профессиональные услуги (консалтинг, юридические практики). Внутри этих направлений тест охватывает 44 профессии — от инженера-программиста и аналитика инвестбанка до медсестры и журналиста. Исполнителям (людям и моделям) предлагают типичные рабочие задачи: подготовить рыночный обзор, описать конкурентную среду, составить структуру проекта, сформулировать рекомендации для руководителя.
Дальше опытные отраслевые специалисты сравнивают пары отчётов ("модель против человека") и выбирают более качественный. Итоговая метрика — "процент побед/ничьих" ИИ по всем 44 профессиям.

Ключевые результаты первой версии

OpenAI сообщает, что GPT-5-high (усиленная версия GPT-5 с дополнительными вычислительными ресурсами) была оценена как превосходящая или равная уровню экспертов в 40,6% случаев. Для контраста: GPT-4o (релиз примерно 15 месяцев назад) имела лишь 13,7% побед и ничьих. В тесте участвовал и конкурент: Claude Opus 4.1 от Anthropic показал 49% и, по оценке OpenAI, частично выиграл за счёт сильной визуализации и "приятной графики" отчётов, а не только за счёт глубины анализа. Это не приговор и не обещание "замены людей завтра": GDPval-v0 проверяет в основном качество отчётных материалов, тогда как реальная работа включает коммуникацию, итерации, согласования, юридические ограничения и ответственность за внедрение.

Как OpenAI трактует прогресс

Первичные выводы — осторожные: GDPval покрывает ограниченный класс задач, но темп улучшений заметен. Модели нового поколения уже способны брать на себя часть рутинной аналитики, чтобы специалисты переключались на более ценные активности — постановку задач, проверку гипотез, работу с рисками и стейкхолдерами.

"[Поскольку] модель хорошо справляется с некоторыми из этих задач", — сказал главный экономист OpenAI Аарон Чаттерджи.
Руководитель направления оценки OpenAI Теджал Патвардхан подчёркивает темпы: от 13,7% у GPT-4o до близко утроенного уровня у GPT-5 — всего за полтора года. В планах — расширение отраслей и сценариев, добавление интерактивных рабочих процессов, где важны память, итерации и командная динамика.

Сравнение: модели и метрики (GDPval-v0)

Модель Итог по GDPval (победы+ничьи) Особенности в отчётах Контекст использования
GPT-4o ~13,7% Базовая аналитика, меньше структурной глубины Обучение, черновики, быстрые резюме
GPT-5 ≈40% (ниже версии high) Лучшая аргументация, стабильнее структура Драфты для финтех, медтех, консалтинг
GPT-5-high 40,6% Усиление за счёт доп. вычислений Сложные сравнения, due diligence, конкурентный анализ "последней мили"
Claude Opus 4.1 49% Сильные визуальные представления Презентации для менеджеров, слайды, сводные отчёты

Как применить GDPval в своей компании: пошагово

  1. Определите "рабочие" метрики качества: что именно считается хорошим результатом (точность, полный охват фактов, читаемость, готовность к принятию решений, требования комплаенса).

  2. Выделите типовые кейсы на 2-3 страницы: инвестиционные заметки, брифы по рынку, протоколы встреч, шаблоны медтех-отчётов, производственные SOP.

  3. Сформируйте "слепое" сравнение: дайте один и тот же бриф человеку и модели (или двум моделям) и попросите отраслевых экспертов выбрать лучший материал.

  4. Зафиксируйте реальную экономию: время подготовки (часов), количество правок, стоимость GPU/облака, экономию на консалтинге.

  5. Внедряйте постепенно: начинайте с низкорискованных задач (черновики), затем повышайте долю автоматизации, но сохраняйте человеческое финальное ревью.

Ошибка → Последствие → Альтернатива

• Опираться на общий "суперскор" без учёта доменных нюансов → Решения "в среднем по больнице", промах по регуляторике и терминологии → Делать отраслевой A/B-пилот на собственных шаблонах.
• Отдавать модели "как есть" задачи высокого риска (медицина, финансы) → Юр. риски, репутационные потери → Встроить двойной контроль: чек-листы и финальное утверждение экспертом.
• Оценивать только стиль и визуал → Красивая форма при слабой фактуре → Вводить оценку фактологичности и источников, проверку условных допущений.

А что если… расширить тест до "живой" работы?

Если в GDPval добавить итерации (обратную связь менеджера), доступ к внутренним данным (DWH, CRM), ограничения комплаенса и дедлайны, таблица лидеров может поменяться. Умение "слушать" правки, уточнять цели и выдерживать формат отраслевых документов (например, для фармкомпаний или госзакупок) зачастую важнее единичной "идеальной" версии отчёта.

Плюсы и минусы GDPval-v0

Плюсы Минусы
Оценка на реальных профессиях и отраслях Узкая выборка задач; недоучёт интерактивности
Понятная метрика "кто лучше в отчёте" Ориентация на формат отчёта, а не процесс
Сопоставление с вкладом отраслей в ВВП Зависимость от вкуса и брифа оценщика
Видно ускорение прогресса моделей Непрозрачность "доп. вычислений" и стоимости

FAQ

GDPval заменяет AIME/GPQA?
Нет. Он дополняет "академические" тесты практическими задачами, где важны структура, факты и прикладные рекомендации.
Почему у Claude показатель 49%, а у GPT-5-high — 40,6%?
Отчасти из-за сильной презентационной составляющей отчётов Claude; это не всегда равно глубине анализа, но влияет на оценку.
Можно ли по GDPval выбирать модель для отрасли?
Используйте его как начальный ориентир. Дальше — пилот на ваших шаблонах, с вашими данными и регуляторными требованиями.
Заменит ли ИИ аналитиков и медсестёр?
GDPval-v0 оценивает отчёты, а не весь комплекс обязанностей. На практике ИИ снимает рутину, а финальные решения оставляет людям.
Сколько это стоит?
Стоимость зависит от модели, облака и объёма задач. В пилоте фиксируйте не только цену токена/GPU, но и экономию времени команды.

Мифы и правда (ClaimReview)

• Миф: "49% по GDPval = модель лучше половины специалистов всегда".
Правда: сравнение шло по конкретным задачам и отчётам, а не по всем функциям роли.
• Миф: "Раз GPT-5 обгоняет людей, можно выключать отделы".
Правда: без валидации и комплаенса риски перевесят экономию.
• Миф: "Достаточно красивых графиков, чтобы пройти оценку".
Правда: стиль помогает, но без фактов и источников отчёт не выдержит ревью.

3 практических факта для внедрения

  1. При "слепых" сравнениях растёт ценность шаблонов: единый формат делает судейство честнее и ускоряет доработки.

  2. На пилоте полезно мерить не только качество, но и "второй виток": сколько правок попросил менеджер после первой версии.

  3. В финтехе и медтехе добавляйте чек-лист юридической корректности (disclaimers, ссылки на протоколы, версионирование).

Исторический контекст: от тестов знаний к рабочим задачам

• Поколение бенчмарков "знаний": AIME-2025 (математика в соревновательном формате), GPQA Diamond (естественные науки уровня PhD).
• Проблема насыщения: топ-модели выходят "в потолок" по ряду академических тестов.
• 2024-2025: сдвиг к "практике" — GDPval-v0 и другие прикладные метрики с отраслевыми сценариями, ближе к реальным процессам и экономическим эффектам.

Что это значит для команд

Для отделов стратегии, продукт-менеджмента, производственных ERP-команд, здравоохранения и govtech GDPval — удобная отправная точка. Он не снимает ответственности за внедрение, но помогает зафиксировать, где ИИ уже приносит пользу: быстрее собрать конкурентную карту "последней мили", сделать драфт медицинского отчёта, подготовить инвестиционную записку. Дальше важны дисциплина эксперимента, контроль качества и понятная экономика: сколько стоит один "хороший" отчёт с учётом правок, и где человеческий опыт по-прежнему незаменим.

Подписывайтесь на NewsInfo.Ru

Читайте также

OpenAI запустила функцию Pulse: ChatGPT стал проактивным помощником сегодня в 13:18

Ежедневная сводка от ИИ: OpenAI включила Pulse и изменила утренние привычки

OpenAI запустила Pulse — новую функцию ChatGPT, которая формирует персональные отчёты, пока вы спите, и предлагает начать утро с ИИ-ассистента.

Читать полностью »
Spotify пояснил, что не получает дополнительных прав на музыку исполнителей сегодня в 12:19

"Они крадут права" — что на самом деле стоит за паникой вокруг Spotify

Spotify опроверг слухи о том, что новые условия дают ему права на музыку артистов. Компания заявила: изменения касаются только слушателей, а выплаты музыкантам растут.

Читать полностью »
Илон Маск: Tesla выступила против ослабления экологических стандартов сегодня в 11:18

Tesla не хочет "передышки" для конкурентов: как битва за климат превращается в бизнес-игру

Tesla просит EPA сохранить строгие нормы выбросов. Компания идёт против позиции Трампа и конкурентов, совмещая экологическую миссию с выгодой от продажи «зеленых» кредитов.

Читать полностью »
Microsoft ограничила доступ Минобороны Израиля к Azure и ИИ-сервисам сегодня в 10:17

Шпионские облака: что узнала Microsoft о слежке за палестинцами — и как отреагировала

Microsoft ограничила доступ израильских военных к облачным и ИИ-сервисам после расследования о возможной слежке за палестинцами с помощью Azure.

Читать полностью »
Dream Chaser проведёт демонстрационный полёт без стыковки с МКС в 2026 году сегодня в 9:17

NASA отступает, Пентагон смотрит внимательно: Dream Chaser лишился гарантированных рейсов к МКС

NASA сняло гарантию рейсов для Dream Chaser. Первый полёт пройдёт в 2026-м без стыковки с МКС. Sierra Space вынуждена искать новые рынки — от коммерции до обороны.

Читать полностью »
США обсуждают требование выпускать столько же микросхем, сколько импортируется сегодня в 8:18

Произвёл за границей — плати в Штатах: Трамп готовит чиповую революцию 1:1

Администрация Трампа рассматривает жёсткую меру для полупроводниковой отрасли: тарифы на компании, не производящие достаточно чипов в США.

Читать полностью »
Flipkart перенесёт штаб-квартиру из Сингапура в Индию к концу 2025 года — TechCrunch сегодня в 7:18

Индийские стартапы бегут из офшоров: Flipkart даёт сигнал всей экосистеме

Flipkart переносит штаб-квартиру из Сингапура в Индию. Это стратегический шаг перед IPO в 2026 году, который станет крупнейшим размещением на индийском рынке.

Читать полностью »
В открытом доступе оказались документы 38 индийских банков, включая SBI сегодня в 6:28

Паспорт, счёт, сумма — всё наружу: ошибка в облаке поставила под удар 38 банков

Ошибки в настройке Amazon S3 привели к утечке 273 000 документов о банковских переводах в Индии. Виновником утечки признана финтех-компания Nupay.

Читать полностью »