Осень 2025 года отметилась новым достижением в развитии искусственного интеллекта: исследователи из Epoch AI провели масштабное сравнение возможностей ведущих языковых моделей на одном из самых сложных математических тестов современности — FrontierMath Tier 4. Этот бенчмарк стал своеобразным "Эверестом" для систем, претендующих на звание действительно рассуждающих моделей.

Что показал тест

На момент замера 11 октября 2025 года GPT-5 Pro от OpenAI уверенно заняла первое место, решив 6 из 48 задач высшей сложности. Второе место досталось Gemini 2.5 Deep Think от Google, показавшей результат в 5 решений. Предыдущий лидер — GPT-5 High - отставала, решив лишь 4 задачи. Заметно слабее выступила Grok 4 Heavy от xAI.

По данным Epoch AI, GPT-5 Pro проходила тестирование в двух режимах — через веб-интерфейс ChatGPT и через API. Оба способа дали одинаковый результат (6 решений), однако в сумме оказалось 8 уникальных ответов, что соответствует показателю pass@2 = 8/48. Такой результат говорит о важной особенности модели: при повторном запуске она способна находить альтернативные корректные решения. Это свойство — признак вероятностного мышления, отличающий современные модели от обычных алгоритмов.

"Даже один новый решённый пример — это значимое событие для FrontierMath", — отметили в Epoch AI.

Что такое FrontierMath Tier 4

FrontierMath Tier 4 — это не просто тест по алгебре или геометрии. Это набор из 50 исследовательских задач, собранных профессорами и постдоками из реальных математических проектов. Типичная задача уровня Tier 4 требует от учёного нескольких часов или дней работы, а отдельные — недель или даже месяцев.

Задачи здесь не предполагают "зазубренных" решений. Они проверяют:

способность к абстрактному рассуждению ;

формулирование гипотез и поиск доказательств;

сочетание логики, интуиции и вычислений ;

устойчивость к ошибкам при сложных рассуждениях.

Именно поэтому даже 10-13% решённых задач на этом уровне — серьёзное достижение. Для сравнения: осенью 2024 года лучшие модели решали лишь около 2% подобных задач.

Таблица "Сравнение"

Модель Компания Количество решённых задач Примечания GPT-5 Pro OpenAI 6 Лидер теста, стабильный результат в двух режимах Gemini 2.5 Deep Think Google 5 Улучшенная версия с модулями рассуждения GPT-5 High OpenAI 4 Была лидером до обновления Pro Grok 4 Heavy xAI <3 Существенно уступает по глубине анализа

Советы шаг за шагом: как тестируют интеллект

Формирование пула задач. Каждая задача утверждается экспертным советом Epoch AI и проверяется на уникальность. Многократный прогон. Модель решает одну и ту же задачу несколько раз для оценки стабильности. Проверка решений. Все ответы проходят автоматическую и ручную валидацию с привлечением математиков. Анализ стратегий. Исследователи изучают, какие подходы использовала модель: перебор, символьные рассуждения или планирование. Оценка качества reasoning. Отдельно оценивается корректность цепочки рассуждений, даже если итог неверен — чтобы понять, как именно "думает" модель.

Ошибка → Последствие → Альтернатива

Ошибка: тестировать ИИ только на стандартных задачах школьного уровня.

Последствие: иллюзия "умного" поведения без реального мышления.

Альтернатива: использовать исследовательские бенчмарки (FrontierMath, ARC-AGI), где требуется рассуждение. Ошибка: оценивать ИИ только по количеству правильных ответов.

Последствие: игнорируется качество логики и нестабильность решений.

Альтернатива: включать метрики вроде pass@2, оценивающие шанс успешного решения при нескольких попытках. Ошибка: полагать, что 10% успеха — мало.

Последствие: недооценка прогресса.

Альтернатива: помнить, что речь о задачах, где человек тратит дни или недели.

А что если…

…модели начнут решать все 50 задач?

Это будет рубеж, близкий к исследовательскому мышлению, то есть способности находить новые решения без примеров. Такой уровень пока не достигнут, но темпы роста точности — экспоненциальные.

…результаты нестабильны?

Это естественно: генеративные модели работают стохастически. При повторных запусках они пробуют разные рассуждения, и это даёт шанс на новое решение. В научной среде это свойство всё чаще сравнивают с интуицией.

Таблица "Плюсы и минусы"

Плюсы GPT-5 Pro Минусы / ограничения Лучшая точность среди публичных моделей Высокая вычислительная стоимость Способность к альтернативным рассуждениям Результаты не всегда воспроизводимы Улучшенная структура reasoning Нет доступа к внешним вычислениям (CAS)

FAQ

Как часто обновляется FrontierMath?

Epoch AI пересматривает задачи примерно раз в полгода. Новые уровни появляются при достижении моделями устойчивых результатов выше 20%.

Почему результаты в API и веб-версии отличаются?

Различие минимально, но API позволяет задавать параметры temperature и n — от этого зависит, насколько модель "рискованно" ищет решения.

Сколько стоит прогон такого теста?

Стоимость измеряется в вычислительных часах: одна сессия GPT-5 Pro может стоить сотни долларов, поскольку каждая задача требует много шагов рассуждения.

Мифы и правда

Миф: "ИИ уже умеет доказывать теоремы".

Правда: модели пока лишь приближаются к уровню аспиранта, способного выстраивать цепочку доказательств. Миф: "10% успеха — провал".

Правда: для FrontierMath это огромный скачок — речь о задачах, где даже эксперты иногда не находят решение. Миф: "Результаты можно просто улучшить увеличением вычислений".

Правда: объём вычислений помогает незначительно, важнее улучшение архитектуры рассуждений и контекстных механизмов.

Исторический контекст

В 2022 году GPT-3.5 решала менее 1% задач уровня Tier 4. В 2023 FrontierMath стал открытым стандартом для оценки reasoning. К 2025 году результаты лучших моделей выросли более чем в пять раз.

Этот прогресс показывает: искусственный интеллект не просто "учится отвечать", а всё больше осваивает структурное мышление - шаг к пониманию мира, а не к запоминанию паттернов.

Три интересных факта