Мужчина решает задачу на доске
Мужчина решает задачу на доске
Олег Белов Опубликована 12.10.2025 в 1:16

ИИ решает задачи, на которые учёные тратят месяцы: GPT-5 взялся за математику с другой планеты

GPT-5 Pro лидирует в тесте FrontierMath Tier 4, решив 6 задач из 48 — Epoch AI

Осень 2025 года отметилась новым достижением в развитии искусственного интеллекта: исследователи из Epoch AI провели масштабное сравнение возможностей ведущих языковых моделей на одном из самых сложных математических тестов современности — FrontierMath Tier 4. Этот бенчмарк стал своеобразным "Эверестом" для систем, претендующих на звание действительно рассуждающих моделей.

Что показал тест

На момент замера 11 октября 2025 года GPT-5 Pro от OpenAI уверенно заняла первое место, решив 6 из 48 задач высшей сложности. Второе место досталось Gemini 2.5 Deep Think от Google, показавшей результат в 5 решений. Предыдущий лидер — GPT-5 High - отставала, решив лишь 4 задачи. Заметно слабее выступила Grok 4 Heavy от xAI.

По данным Epoch AI, GPT-5 Pro проходила тестирование в двух режимах — через веб-интерфейс ChatGPT и через API. Оба способа дали одинаковый результат (6 решений), однако в сумме оказалось 8 уникальных ответов, что соответствует показателю pass@2 = 8/48. Такой результат говорит о важной особенности модели: при повторном запуске она способна находить альтернативные корректные решения. Это свойство — признак вероятностного мышления, отличающий современные модели от обычных алгоритмов.

"Даже один новый решённый пример — это значимое событие для FrontierMath", — отметили в Epoch AI.

Что такое FrontierMath Tier 4

FrontierMath Tier 4 — это не просто тест по алгебре или геометрии. Это набор из 50 исследовательских задач, собранных профессорами и постдоками из реальных математических проектов. Типичная задача уровня Tier 4 требует от учёного нескольких часов или дней работы, а отдельные — недель или даже месяцев.

Задачи здесь не предполагают "зазубренных" решений. Они проверяют:

  • способность к абстрактному рассуждению;

  • формулирование гипотез и поиск доказательств;

  • сочетание логики, интуиции и вычислений;

  • устойчивость к ошибкам при сложных рассуждениях.

Именно поэтому даже 10-13% решённых задач на этом уровне — серьёзное достижение. Для сравнения: осенью 2024 года лучшие модели решали лишь около 2% подобных задач.

Таблица "Сравнение"

Модель Компания Количество решённых задач Примечания
GPT-5 Pro OpenAI 6 Лидер теста, стабильный результат в двух режимах
Gemini 2.5 Deep Think Google 5 Улучшенная версия с модулями рассуждения
GPT-5 High OpenAI 4 Была лидером до обновления Pro
Grok 4 Heavy xAI <3 Существенно уступает по глубине анализа

Советы шаг за шагом: как тестируют интеллект

  1. Формирование пула задач. Каждая задача утверждается экспертным советом Epoch AI и проверяется на уникальность.

  2. Многократный прогон. Модель решает одну и ту же задачу несколько раз для оценки стабильности.

  3. Проверка решений. Все ответы проходят автоматическую и ручную валидацию с привлечением математиков.

  4. Анализ стратегий. Исследователи изучают, какие подходы использовала модель: перебор, символьные рассуждения или планирование.

  5. Оценка качества reasoning. Отдельно оценивается корректность цепочки рассуждений, даже если итог неверен — чтобы понять, как именно "думает" модель.

Ошибка → Последствие → Альтернатива

  1. Ошибка: тестировать ИИ только на стандартных задачах школьного уровня.
    Последствие: иллюзия "умного" поведения без реального мышления.
    Альтернатива: использовать исследовательские бенчмарки (FrontierMath, ARC-AGI), где требуется рассуждение.

  2. Ошибка: оценивать ИИ только по количеству правильных ответов.
    Последствие: игнорируется качество логики и нестабильность решений.
    Альтернатива: включать метрики вроде pass@2, оценивающие шанс успешного решения при нескольких попытках.

  3. Ошибка: полагать, что 10% успеха — мало.
    Последствие: недооценка прогресса.
    Альтернатива: помнить, что речь о задачах, где человек тратит дни или недели.

А что если…

…модели начнут решать все 50 задач?

Это будет рубеж, близкий к исследовательскому мышлению, то есть способности находить новые решения без примеров. Такой уровень пока не достигнут, но темпы роста точности — экспоненциальные.

…результаты нестабильны?

Это естественно: генеративные модели работают стохастически. При повторных запусках они пробуют разные рассуждения, и это даёт шанс на новое решение. В научной среде это свойство всё чаще сравнивают с интуицией.

Таблица "Плюсы и минусы"

Плюсы GPT-5 Pro Минусы / ограничения
Лучшая точность среди публичных моделей Высокая вычислительная стоимость
Способность к альтернативным рассуждениям Результаты не всегда воспроизводимы
Улучшенная структура reasoning Нет доступа к внешним вычислениям (CAS)

FAQ

Как часто обновляется FrontierMath?

Epoch AI пересматривает задачи примерно раз в полгода. Новые уровни появляются при достижении моделями устойчивых результатов выше 20%.

Почему результаты в API и веб-версии отличаются?

Различие минимально, но API позволяет задавать параметры temperature и n — от этого зависит, насколько модель "рискованно" ищет решения.

Сколько стоит прогон такого теста?

Стоимость измеряется в вычислительных часах: одна сессия GPT-5 Pro может стоить сотни долларов, поскольку каждая задача требует много шагов рассуждения.

Мифы и правда

  1. Миф: "ИИ уже умеет доказывать теоремы".
    Правда: модели пока лишь приближаются к уровню аспиранта, способного выстраивать цепочку доказательств.

  2. Миф: "10% успеха — провал".
    Правда: для FrontierMath это огромный скачок — речь о задачах, где даже эксперты иногда не находят решение.

  3. Миф: "Результаты можно просто улучшить увеличением вычислений".
    Правда: объём вычислений помогает незначительно, важнее улучшение архитектуры рассуждений и контекстных механизмов.

Исторический контекст

  1. В 2022 году GPT-3.5 решала менее 1% задач уровня Tier 4.

  2. В 2023 FrontierMath стал открытым стандартом для оценки reasoning.

  3. К 2025 году результаты лучших моделей выросли более чем в пять раз.

Этот прогресс показывает: искусственный интеллект не просто "учится отвечать", а всё больше осваивает структурное мышление - шаг к пониманию мира, а не к запоминанию паттернов.

Три интересных факта

  1. Epoch AI — это команда, которая ранее создала бенчмарк ARC-AGI, используемый для измерения абстрактного мышления ИИ.

  2. Одна из решённых GPT-5 Pro задач ранее считалась нерешаемой даже для продвинутых моделей уровня GPT-4 Turbo.

  3. В некоторых случаях модель находила нестандартные подходы, которые совпали с идеями, публиковавшимися в научных статьях несколько лет назад.

Подписывайтесь на NewsInfo.Ru

Читайте также

Православный мессенджер Зосима выйдет в первой половине 2026 года — Агапов 06.12.2025 в 7:57
Секретный проект раскрыт: Зосима выйдет в 2026-м и обещает стать главным духовным каналом

Православный мессенджер "Зосима" готовят к публичному запуску в 2026-м: тест уже прошли тысячи пользователей, а дальше всё решит масштабирование.

Читать полностью »
Конфликт приложений может замедлять работу гаджета — IT-эксперт Муртазин 05.12.2025 в 13:34
Когда телефон живет своей жизнью: из-за этих процессов гаджет начинает тормозить

Аналитик Эльдар Муртазин объяснил NewsInfo почему телефон может перегреваться и "тормозить".

Читать полностью »
Pokemon TCG Pocket признана лучшей игрой для iPhone — App Store Awards 2025 05.12.2025 в 13:25
Игры и приложения года раскрыты: пользователи не ожидали такого расклада от Apple

Премия App Store Awards 2025 изменила расстановку сил между крупными студиями и независимыми разработчиками, показав неожиданные приоритеты индустрии.

Читать полностью »
Модели телевизоров от Tuvio, TCL и Hisense названы лучшими до 17 тысяч рублей — Палач 05.12.2025 в 13:15
Бюджетные телевизоры поражают возможностями: не думал, что за такие деньги бывает такое

Подборка трёх доступных телевизоров до 17 тысяч рублей показывает, как бюджетный сегмент постепенно перенимает функции более дорогих моделей, сохраняя привлекательную цену.

Читать полностью »
Теневые каналы в Telegram живут в среднем семь месяцев — Лаборатория Касперского 05.12.2025 в 9:36
Лаборатория Касперского раскрыла правду: почему даже крупные теневые каналы в Telegram живут недолго

Kaspersky изучила 800+ теневых Telegram-каналов: в среднем они живут около семи месяцев. Почему блокировки усилились и куда уходят крупные сообщества?

Читать полностью »
Расширения WeTab и Infinity V+ собирали данные 4 млн пользователей — KOI Security 05.12.2025 в 8:57
Осторожно, обновление: как безобидное расширение после апдейта начало похищать ваши пароли

WeTab и Infinity V+ подозревают в скрытом сборе данных через обновления. Как работала "долгая" атака и почему пострадали миллионы пользователей?

Читать полностью »
Вредоносное ПО для Android закрепляется в системе — ТАСС 05.12.2025 в 8:23
Мошенники знают ваши слабые места: почему вы добровольно установите троян под видом YouTube Pro

Под видом "18+" и "расширенных" TikTok и YouTube пользователям подсовывают трояны. Как устроена сеть сайтов и что нашли операторы.

Читать полностью »
MacBook Air M1 признали актуальным в 2025 году — iGuides 04.12.2025 в 21:42
Этот недорогой MacBook снова все обсуждают — причина удивила даже опытных пользователей

Пользователи обсуждают, насколько старый MacBook Air M1 сохраняет актуальность на фоне падения цен и долгой поддержки macOS, и какие ограничения остаются заметными.

Читать полностью »