ИИ решает задачи, на которые учёные тратят месяцы: GPT-5 взялся за математику с другой планеты

GPT-5 Pro лидирует в тесте FrontierMath Tier 4, решив 6 задач из 48 — Epoch AI

Осень 2025 года отметилась новым достижением в развитии искусственного интеллекта: исследователи из Epoch AI провели масштабное сравнение возможностей ведущих языковых моделей на одном из самых сложных математических тестов современности — FrontierMath Tier 4. Этот бенчмарк стал своеобразным "Эверестом" для систем, претендующих на звание действительно рассуждающих моделей.

Что показал тест

На момент замера 11 октября 2025 года GPT-5 Pro от OpenAI уверенно заняла первое место, решив 6 из 48 задач высшей сложности. Второе место досталось Gemini 2.5 Deep Think от Google, показавшей результат в 5 решений. Предыдущий лидер — GPT-5 High - отставала, решив лишь 4 задачи. Заметно слабее выступила Grok 4 Heavy от xAI.

По данным Epoch AI, GPT-5 Pro проходила тестирование в двух режимах — через веб-интерфейс ChatGPT и через API. Оба способа дали одинаковый результат (6 решений), однако в сумме оказалось 8 уникальных ответов, что соответствует показателю pass@2 = 8/48. Такой результат говорит о важной особенности модели: при повторном запуске она способна находить альтернативные корректные решения. Это свойство — признак вероятностного мышления, отличающий современные модели от обычных алгоритмов.

"Даже один новый решённый пример — это значимое событие для FrontierMath", — отметили в Epoch AI.

Что такое FrontierMath Tier 4

FrontierMath Tier 4 — это не просто тест по алгебре или геометрии. Это набор из 50 исследовательских задач, собранных профессорами и постдоками из реальных математических проектов. Типичная задача уровня Tier 4 требует от учёного нескольких часов или дней работы, а отдельные — недель или даже месяцев.

Задачи здесь не предполагают "зазубренных" решений. Они проверяют:

способность к абстрактному рассуждению;
формулирование гипотез и поиск доказательств;
сочетание логики, интуиции и вычислений;
устойчивость к ошибкам при сложных рассуждениях.

Именно поэтому даже 10-13% решённых задач на этом уровне — серьёзное достижение. Для сравнения: осенью 2024 года лучшие модели решали лишь около 2% подобных задач.

Таблица "Сравнение"

Модель	Компания	Количество решённых задач	Примечания
GPT-5 Pro	OpenAI	6	Лидер теста, стабильный результат в двух режимах
Gemini 2.5 Deep Think	Google	5	Улучшенная версия с модулями рассуждения
GPT-5 High	OpenAI	4	Была лидером до обновления Pro
Grok 4 Heavy	xAI	<3	Существенно уступает по глубине анализа

Советы шаг за шагом: как тестируют интеллект

Формирование пула задач. Каждая задача утверждается экспертным советом Epoch AI и проверяется на уникальность.
Многократный прогон. Модель решает одну и ту же задачу несколько раз для оценки стабильности.
Проверка решений. Все ответы проходят автоматическую и ручную валидацию с привлечением математиков.
Анализ стратегий. Исследователи изучают, какие подходы использовала модель: перебор, символьные рассуждения или планирование.
Оценка качества reasoning. Отдельно оценивается корректность цепочки рассуждений, даже если итог неверен — чтобы понять, как именно "думает" модель.

Ошибка → Последствие → Альтернатива

Ошибка: тестировать ИИ только на стандартных задачах школьного уровня.
Последствие: иллюзия "умного" поведения без реального мышления.
Альтернатива: использовать исследовательские бенчмарки (FrontierMath, ARC-AGI), где требуется рассуждение.
Ошибка: оценивать ИИ только по количеству правильных ответов.
Последствие: игнорируется качество логики и нестабильность решений.
Альтернатива: включать метрики вроде pass@2, оценивающие шанс успешного решения при нескольких попытках.
Ошибка: полагать, что 10% успеха — мало.
Последствие: недооценка прогресса.
Альтернатива: помнить, что речь о задачах, где человек тратит дни или недели.

А что если…

…модели начнут решать все 50 задач?

Это будет рубеж, близкий к исследовательскому мышлению, то есть способности находить новые решения без примеров. Такой уровень пока не достигнут, но темпы роста точности — экспоненциальные.

…результаты нестабильны?

Это естественно: генеративные модели работают стохастически. При повторных запусках они пробуют разные рассуждения, и это даёт шанс на новое решение. В научной среде это свойство всё чаще сравнивают с интуицией.

Таблица "Плюсы и минусы"

Плюсы GPT-5 Pro	Минусы / ограничения
Лучшая точность среди публичных моделей	Высокая вычислительная стоимость
Способность к альтернативным рассуждениям	Результаты не всегда воспроизводимы
Улучшенная структура reasoning	Нет доступа к внешним вычислениям (CAS)

FAQ

Как часто обновляется FrontierMath?

Epoch AI пересматривает задачи примерно раз в полгода. Новые уровни появляются при достижении моделями устойчивых результатов выше 20%.

Почему результаты в API и веб-версии отличаются?

Различие минимально, но API позволяет задавать параметры temperature и n — от этого зависит, насколько модель "рискованно" ищет решения.

Сколько стоит прогон такого теста?

Стоимость измеряется в вычислительных часах: одна сессия GPT-5 Pro может стоить сотни долларов, поскольку каждая задача требует много шагов рассуждения.

Мифы и правда

Миф: "ИИ уже умеет доказывать теоремы".
Правда: модели пока лишь приближаются к уровню аспиранта, способного выстраивать цепочку доказательств.
Миф: "10% успеха — провал".
Правда: для FrontierMath это огромный скачок — речь о задачах, где даже эксперты иногда не находят решение.
Миф: "Результаты можно просто улучшить увеличением вычислений".
Правда: объём вычислений помогает незначительно, важнее улучшение архитектуры рассуждений и контекстных механизмов.

Исторический контекст

В 2022 году GPT-3.5 решала менее 1% задач уровня Tier 4.
В 2023 FrontierMath стал открытым стандартом для оценки reasoning.
К 2025 году результаты лучших моделей выросли более чем в пять раз.

Этот прогресс показывает: искусственный интеллект не просто "учится отвечать", а всё больше осваивает структурное мышление - шаг к пониманию мира, а не к запоминанию паттернов.

Три интересных факта

Epoch AI — это команда, которая ранее создала бенчмарк ARC-AGI, используемый для измерения абстрактного мышления ИИ.
Одна из решённых GPT-5 Pro задач ранее считалась нерешаемой даже для продвинутых моделей уровня GPT-4 Turbo.
В некоторых случаях модель находила нестандартные подходы, которые совпали с идеями, публиковавшимися в научных статьях несколько лет назад.

Подписывайтесь на NewsInfo.Ru