Мужчина решает задачу на доске
Мужчина решает задачу на доске
Олег Белов Опубликована сегодня в 1:16

ИИ решает задачи, на которые учёные тратят месяцы: GPT-5 взялся за математику с другой планеты

GPT-5 Pro лидирует в тесте FrontierMath Tier 4, решив 6 задач из 48 — Epoch AI

Осень 2025 года отметилась новым достижением в развитии искусственного интеллекта: исследователи из Epoch AI провели масштабное сравнение возможностей ведущих языковых моделей на одном из самых сложных математических тестов современности — FrontierMath Tier 4. Этот бенчмарк стал своеобразным "Эверестом" для систем, претендующих на звание действительно рассуждающих моделей.

Что показал тест

На момент замера 11 октября 2025 года GPT-5 Pro от OpenAI уверенно заняла первое место, решив 6 из 48 задач высшей сложности. Второе место досталось Gemini 2.5 Deep Think от Google, показавшей результат в 5 решений. Предыдущий лидер — GPT-5 High - отставала, решив лишь 4 задачи. Заметно слабее выступила Grok 4 Heavy от xAI.

По данным Epoch AI, GPT-5 Pro проходила тестирование в двух режимах — через веб-интерфейс ChatGPT и через API. Оба способа дали одинаковый результат (6 решений), однако в сумме оказалось 8 уникальных ответов, что соответствует показателю pass@2 = 8/48. Такой результат говорит о важной особенности модели: при повторном запуске она способна находить альтернативные корректные решения. Это свойство — признак вероятностного мышления, отличающий современные модели от обычных алгоритмов.

"Даже один новый решённый пример — это значимое событие для FrontierMath", — отметили в Epoch AI.

Что такое FrontierMath Tier 4

FrontierMath Tier 4 — это не просто тест по алгебре или геометрии. Это набор из 50 исследовательских задач, собранных профессорами и постдоками из реальных математических проектов. Типичная задача уровня Tier 4 требует от учёного нескольких часов или дней работы, а отдельные — недель или даже месяцев.

Задачи здесь не предполагают "зазубренных" решений. Они проверяют:

  • способность к абстрактному рассуждению;

  • формулирование гипотез и поиск доказательств;

  • сочетание логики, интуиции и вычислений;

  • устойчивость к ошибкам при сложных рассуждениях.

Именно поэтому даже 10-13% решённых задач на этом уровне — серьёзное достижение. Для сравнения: осенью 2024 года лучшие модели решали лишь около 2% подобных задач.

Таблица "Сравнение"

Модель Компания Количество решённых задач Примечания
GPT-5 Pro OpenAI 6 Лидер теста, стабильный результат в двух режимах
Gemini 2.5 Deep Think Google 5 Улучшенная версия с модулями рассуждения
GPT-5 High OpenAI 4 Была лидером до обновления Pro
Grok 4 Heavy xAI <3 Существенно уступает по глубине анализа

Советы шаг за шагом: как тестируют интеллект

  1. Формирование пула задач. Каждая задача утверждается экспертным советом Epoch AI и проверяется на уникальность.

  2. Многократный прогон. Модель решает одну и ту же задачу несколько раз для оценки стабильности.

  3. Проверка решений. Все ответы проходят автоматическую и ручную валидацию с привлечением математиков.

  4. Анализ стратегий. Исследователи изучают, какие подходы использовала модель: перебор, символьные рассуждения или планирование.

  5. Оценка качества reasoning. Отдельно оценивается корректность цепочки рассуждений, даже если итог неверен — чтобы понять, как именно "думает" модель.

Ошибка → Последствие → Альтернатива

  1. Ошибка: тестировать ИИ только на стандартных задачах школьного уровня.
    Последствие: иллюзия "умного" поведения без реального мышления.
    Альтернатива: использовать исследовательские бенчмарки (FrontierMath, ARC-AGI), где требуется рассуждение.

  2. Ошибка: оценивать ИИ только по количеству правильных ответов.
    Последствие: игнорируется качество логики и нестабильность решений.
    Альтернатива: включать метрики вроде pass@2, оценивающие шанс успешного решения при нескольких попытках.

  3. Ошибка: полагать, что 10% успеха — мало.
    Последствие: недооценка прогресса.
    Альтернатива: помнить, что речь о задачах, где человек тратит дни или недели.

А что если…

…модели начнут решать все 50 задач?

Это будет рубеж, близкий к исследовательскому мышлению, то есть способности находить новые решения без примеров. Такой уровень пока не достигнут, но темпы роста точности — экспоненциальные.

…результаты нестабильны?

Это естественно: генеративные модели работают стохастически. При повторных запусках они пробуют разные рассуждения, и это даёт шанс на новое решение. В научной среде это свойство всё чаще сравнивают с интуицией.

Таблица "Плюсы и минусы"

Плюсы GPT-5 Pro Минусы / ограничения
Лучшая точность среди публичных моделей Высокая вычислительная стоимость
Способность к альтернативным рассуждениям Результаты не всегда воспроизводимы
Улучшенная структура reasoning Нет доступа к внешним вычислениям (CAS)

FAQ

Как часто обновляется FrontierMath?

Epoch AI пересматривает задачи примерно раз в полгода. Новые уровни появляются при достижении моделями устойчивых результатов выше 20%.

Почему результаты в API и веб-версии отличаются?

Различие минимально, но API позволяет задавать параметры temperature и n — от этого зависит, насколько модель "рискованно" ищет решения.

Сколько стоит прогон такого теста?

Стоимость измеряется в вычислительных часах: одна сессия GPT-5 Pro может стоить сотни долларов, поскольку каждая задача требует много шагов рассуждения.

Мифы и правда

  1. Миф: "ИИ уже умеет доказывать теоремы".
    Правда: модели пока лишь приближаются к уровню аспиранта, способного выстраивать цепочку доказательств.

  2. Миф: "10% успеха — провал".
    Правда: для FrontierMath это огромный скачок — речь о задачах, где даже эксперты иногда не находят решение.

  3. Миф: "Результаты можно просто улучшить увеличением вычислений".
    Правда: объём вычислений помогает незначительно, важнее улучшение архитектуры рассуждений и контекстных механизмов.

Исторический контекст

  1. В 2022 году GPT-3.5 решала менее 1% задач уровня Tier 4.

  2. В 2023 FrontierMath стал открытым стандартом для оценки reasoning.

  3. К 2025 году результаты лучших моделей выросли более чем в пять раз.

Этот прогресс показывает: искусственный интеллект не просто "учится отвечать", а всё больше осваивает структурное мышление - шаг к пониманию мира, а не к запоминанию паттернов.

Три интересных факта

  1. Epoch AI — это команда, которая ранее создала бенчмарк ARC-AGI, используемый для измерения абстрактного мышления ИИ.

  2. Одна из решённых GPT-5 Pro задач ранее считалась нерешаемой даже для продвинутых моделей уровня GPT-4 Turbo.

  3. В некоторых случаях модель находила нестандартные подходы, которые совпали с идеями, публиковавшимися в научных статьях несколько лет назад.

Подписывайтесь на NewsInfo.Ru

Читайте также

Activision открыла бесплатный доступ к Call of Duty: Black Ops 6 до 16 октября сегодня в 17:16
Call of Duty впервые открыла всё: сюжет, зомби и мультиплеер — теперь бесплатно

Activision открыла бесплатный доступ к Call of Duty: Black Ops 6 до 16 октября. Впервые игрокам доступна вся сюжетная кампания, зомби-режим и хэллоуинское событие.

Читать полностью »
сегодня в 15:17
Ваши данные под угрозой? Не совсем: правда о публичных Wi-Fi, которую пора узнать

Подключаться к городскому Wi-Fi безопасно, если знать правила. Эксперты «Дом.ру» развенчали мифы о публичных сетях и рассказали, как распознать фейковую точку доступа.

Читать полностью »
Бывший дизайнер Apple Джони Айв заявил о росте цифровой зависимости и необходимости сегодня в 14:36
Мир утонул в экранах: создатель iPhone придумал, как нас оттуда вытащить

Джони Айв, создатель iPhone, призвал пересмотреть наши отношения с технологиями и предложил устройство, которое освободит пользователей от экранной зависимости.

Читать полностью »
Депутат Андрей Свинцов заявил, что Россия рискует отстать без инвестиций в робототехнику и ИИ сегодня в 13:17
Китай уже вложил 180 миллиардов, а мы пока думаем: что ждёт Россию без ИИ

Россия может догнать США и Китай, если сделает ставку на робототехнику и искусственный интеллект. Что предлагает депутат Андрей Свинцов и зачем бизнесу инвестировать в ИИ.

Читать полностью »
Депутат Андрей Свинцов предсказал появление боевых роботов в армии к 2026 году — НСН сегодня в 12:16
Роботы выходят на передовую: кто будет воевать вместо нас уже через год

Роботы могут появиться на передовой уже через два года. Почему эксперты называют 2026 год началом новой военной эпохи — и как Россия готовится к этому.

Читать полностью »
Epic Games Store начал мобильные раздачи игр: Double Dragon Trilogy доступна бесплатно до 16 октября сегодня в 11:16
Аркада из 80-х, которая стала подарком: Double Dragon теперь навсегда в вашем телефоне

Epic Games впервые запустила бесплатные раздачи игр на Android и iPhone. Первым подарком стала легендарная Double Dragon Trilogy — рассказываем, как её получить.

Читать полностью »
В The Elder Scrolls VI появятся два персонажа, созданные фанатами — Bethesda и Make-A-Wish сегодня в 10:17
Игроки сами войдут в TES VI: фанатские герои навсегда останутся в легенде

В новой части The Elder Scrolls появятся два персонажа, созданные фанатами в рамках благотворительного проекта. Как Bethesda превратила аукцион в историю о памяти и единстве сообщества.

Читать полностью »
сегодня в 9:17
Смартфоны по цене ужина, а работают, как взрослые: топ моделей до 12К

Смартфоны до 12 тысяч рублей больше не ассоциируются с компромиссами. Рассказываем, какие модели предлагают максимум функций за минимальные деньги.

Читать полностью »