
ИИ решает задачи, на которые учёные тратят месяцы: GPT-5 взялся за математику с другой планеты
Осень 2025 года отметилась новым достижением в развитии искусственного интеллекта: исследователи из Epoch AI провели масштабное сравнение возможностей ведущих языковых моделей на одном из самых сложных математических тестов современности — FrontierMath Tier 4. Этот бенчмарк стал своеобразным "Эверестом" для систем, претендующих на звание действительно рассуждающих моделей.
Что показал тест
На момент замера 11 октября 2025 года GPT-5 Pro от OpenAI уверенно заняла первое место, решив 6 из 48 задач высшей сложности. Второе место досталось Gemini 2.5 Deep Think от Google, показавшей результат в 5 решений. Предыдущий лидер — GPT-5 High - отставала, решив лишь 4 задачи. Заметно слабее выступила Grok 4 Heavy от xAI.
По данным Epoch AI, GPT-5 Pro проходила тестирование в двух режимах — через веб-интерфейс ChatGPT и через API. Оба способа дали одинаковый результат (6 решений), однако в сумме оказалось 8 уникальных ответов, что соответствует показателю pass@2 = 8/48. Такой результат говорит о важной особенности модели: при повторном запуске она способна находить альтернативные корректные решения. Это свойство — признак вероятностного мышления, отличающий современные модели от обычных алгоритмов.
"Даже один новый решённый пример — это значимое событие для FrontierMath", — отметили в Epoch AI.
Что такое FrontierMath Tier 4
FrontierMath Tier 4 — это не просто тест по алгебре или геометрии. Это набор из 50 исследовательских задач, собранных профессорами и постдоками из реальных математических проектов. Типичная задача уровня Tier 4 требует от учёного нескольких часов или дней работы, а отдельные — недель или даже месяцев.
Задачи здесь не предполагают "зазубренных" решений. Они проверяют:
-
способность к абстрактному рассуждению;
-
формулирование гипотез и поиск доказательств;
-
сочетание логики, интуиции и вычислений;
-
устойчивость к ошибкам при сложных рассуждениях.
Именно поэтому даже 10-13% решённых задач на этом уровне — серьёзное достижение. Для сравнения: осенью 2024 года лучшие модели решали лишь около 2% подобных задач.
Таблица "Сравнение"
Модель | Компания | Количество решённых задач | Примечания |
GPT-5 Pro | OpenAI | 6 | Лидер теста, стабильный результат в двух режимах |
Gemini 2.5 Deep Think | 5 | Улучшенная версия с модулями рассуждения | |
GPT-5 High | OpenAI | 4 | Была лидером до обновления Pro |
Grok 4 Heavy | xAI | <3 | Существенно уступает по глубине анализа |
Советы шаг за шагом: как тестируют интеллект
-
Формирование пула задач. Каждая задача утверждается экспертным советом Epoch AI и проверяется на уникальность.
-
Многократный прогон. Модель решает одну и ту же задачу несколько раз для оценки стабильности.
-
Проверка решений. Все ответы проходят автоматическую и ручную валидацию с привлечением математиков.
-
Анализ стратегий. Исследователи изучают, какие подходы использовала модель: перебор, символьные рассуждения или планирование.
-
Оценка качества reasoning. Отдельно оценивается корректность цепочки рассуждений, даже если итог неверен — чтобы понять, как именно "думает" модель.
Ошибка → Последствие → Альтернатива
-
Ошибка: тестировать ИИ только на стандартных задачах школьного уровня.
Последствие: иллюзия "умного" поведения без реального мышления.
Альтернатива: использовать исследовательские бенчмарки (FrontierMath, ARC-AGI), где требуется рассуждение. -
Ошибка: оценивать ИИ только по количеству правильных ответов.
Последствие: игнорируется качество логики и нестабильность решений.
Альтернатива: включать метрики вроде pass@2, оценивающие шанс успешного решения при нескольких попытках. -
Ошибка: полагать, что 10% успеха — мало.
Последствие: недооценка прогресса.
Альтернатива: помнить, что речь о задачах, где человек тратит дни или недели.
А что если…
…модели начнут решать все 50 задач?
Это будет рубеж, близкий к исследовательскому мышлению, то есть способности находить новые решения без примеров. Такой уровень пока не достигнут, но темпы роста точности — экспоненциальные.
…результаты нестабильны?
Это естественно: генеративные модели работают стохастически. При повторных запусках они пробуют разные рассуждения, и это даёт шанс на новое решение. В научной среде это свойство всё чаще сравнивают с интуицией.
Таблица "Плюсы и минусы"
Плюсы GPT-5 Pro | Минусы / ограничения |
Лучшая точность среди публичных моделей | Высокая вычислительная стоимость |
Способность к альтернативным рассуждениям | Результаты не всегда воспроизводимы |
Улучшенная структура reasoning | Нет доступа к внешним вычислениям (CAS) |
FAQ
Как часто обновляется FrontierMath?
Epoch AI пересматривает задачи примерно раз в полгода. Новые уровни появляются при достижении моделями устойчивых результатов выше 20%.
Почему результаты в API и веб-версии отличаются?
Различие минимально, но API позволяет задавать параметры temperature и n — от этого зависит, насколько модель "рискованно" ищет решения.
Сколько стоит прогон такого теста?
Стоимость измеряется в вычислительных часах: одна сессия GPT-5 Pro может стоить сотни долларов, поскольку каждая задача требует много шагов рассуждения.
Мифы и правда
-
Миф: "ИИ уже умеет доказывать теоремы".
Правда: модели пока лишь приближаются к уровню аспиранта, способного выстраивать цепочку доказательств. -
Миф: "10% успеха — провал".
Правда: для FrontierMath это огромный скачок — речь о задачах, где даже эксперты иногда не находят решение. -
Миф: "Результаты можно просто улучшить увеличением вычислений".
Правда: объём вычислений помогает незначительно, важнее улучшение архитектуры рассуждений и контекстных механизмов.
Исторический контекст
-
В 2022 году GPT-3.5 решала менее 1% задач уровня Tier 4.
-
В 2023 FrontierMath стал открытым стандартом для оценки reasoning.
-
К 2025 году результаты лучших моделей выросли более чем в пять раз.
Этот прогресс показывает: искусственный интеллект не просто "учится отвечать", а всё больше осваивает структурное мышление - шаг к пониманию мира, а не к запоминанию паттернов.
Три интересных факта
-
Epoch AI — это команда, которая ранее создала бенчмарк ARC-AGI, используемый для измерения абстрактного мышления ИИ.
-
Одна из решённых GPT-5 Pro задач ранее считалась нерешаемой даже для продвинутых моделей уровня GPT-4 Turbo.
-
В некоторых случаях модель находила нестандартные подходы, которые совпали с идеями, публиковавшимися в научных статьях несколько лет назад.
Подписывайтесь на NewsInfo.Ru