GPT-5 и Gemini 2.5 Pro взяли порог "золото" на задачах IOAA 2022–2025 — исследователи

Идея о том, что ИИ справляется с «настоящими» олимпиадными задачами только за счёт заученных шаблонов, в этот раз не сработала. Команды исследователей прогнали свежие наборы Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы и проверили ответы больших языковых моделей по правилам, близким к официальному судейству. Результат громкий: GPT-5 и Gemini 2.5 Pro стабильно доходят до порога «золота» в теории и анализе данных — причём даже на комплекте IOAA-2025, составленном в августе 2025-го, когда в обучающих корпусах моделей ещё не было этих задач. Это хороший индикатор того, что решения строились по смыслу, а не вспоминались из памяти.

Что именно проверяли и как это делали

Организаторы эксперимента взяли два тура — теоретический и по анализу данных (наблюдательный тур не оценивался). Условия унифицировали: одинаковые промпты, чёткие рубрики проверки, сопоставимые критерии оценивания. По итогам нескольких прогонов и усреднения баллов за 2022–2025 годы вышла понятная картина: у GPT-5 ~84,2% по теории и ~88,5% по анализу данных; у Gemini 2.5 Pro — ~85,6% и ~75,7% соответственно. Это уровень «золота» по правилам IOAA.

Другие системы выглядели более «рвано». OpenAI o3 и семейство Claude (4.1 Opus и 4 Sonnet) держали высокий уровень в теории, но проседали в анализе данных: у o3 в 2023–2024 — «серебро», у Claude Opus и Sonnet в 2024–2025 — падение до «бронзы» и даже «без медали». При этом сильные стороны у всех похожи — работа с формулами, расчётами и стандартными физическими соотношениями. А слабые — концептуальные: пространственная геометрия на небесной сфере, чтение и построение графиков, интерпретация схем. Логичный следующий шаг — усиление мультимодальности и появление у моделей «визуального блокнота рассуждений», чтобы держать в уме рисунки, диаграммы и промежуточные построения.

Сравнение результатов по моделям

Модель Теория (среднее 2022–2025) Анализ данных (среднее 2022–2025) Итоговый уровень
GPT-5 ~84,2% ~88,5% «золото» в обоих турах
Gemini 2.5 Pro ~85,6% ~75,7% «золото»/«золото» (порог достигнут)
OpenAI o3 «золото» 2023–2024: «серебро» нестабильно
Claude 4.1 Opus «золото» 2024–2025: до «бронзы»/«без медали» нестабильно
Claude 4 Sonnet «золото» 2024–2025: до «бронзы»/«без медали» нестабильно

Пояснение: «уровень» в таблице — это не официальная медаль, а попадание в соответствующий порог баллов по критериям IOAA.

Как повторить подход: пошаговое руководство

  1. Подготовьте корпус задач. Возьмите открытые комплекты IOAA (теория + анализ данных) за несколько лет. Для «чистоты» включите максимально свежий год.

  2. Настройте единый протокол. Задайте одинаковый промпт-шаблон: формат ответа, допустимые преобразования, какие вспомогательные вычисления разрешены (калькулятор, «черновик», Python-окружение без интернета).

  3. Выберите проверяющую рубрику. Разбейте балл по критериям: физический смысл, формулы, вычисления, графики/чертежи, итоговая интерпретация.

  4. Запустите прогон моделей. Примените одни и те же входные данные (в том числе изображения схем) к нескольким LLM: GPT-5, Gemini 2.5 Pro, o3, Claude 4.1 Opus/4 Sonnet.

  5. Оцените вслепую. Снимите метки модели с ответов, а экспертов-проверяющих попросите выставлять баллы по рубрикам.

  6. Усредните результаты. Посчитайте статистику по годам и турам. Важно фиксировать не только средние, но и разброс.

  7. Проанализируйте ошибки. Отметьте типовые промахи: геометрия на сфере, неверные чтения легенды графиков, путаница единиц.

  8. Внедрите визуальные подсказки. Если модель поддерживает изображения, дайте ей в помощь планисферу, кусочки «атласа неба», схемы телескопов, пометки на графиках — и повторите прогон.

Инструменты по теме: датасеты олимпиад, облачные окружения с GPU, калькуляторы/скриптовые «песочницы», а также образовательные продукты — подготовительные курсы по астрономии и физике, научпоп-книги, цифровые планетарии и приложения-планисферы.

Ошибка → Последствие → Альтернатива

В качестве «готовых решений» подойдут: пакеты для визуализации (например, инструменты работы с астрономическими каталогами), онлайн-калькуляторы небесной механики, приложения «мобильный планетарий».

А что если…

…добавить «визуальный блокнот рассуждений»? Тогда модель сможет пошагово чертить вспомогательные окружности, отмечать узлы на графике, подписывать углы и пояснять, почему выбран тот или иной путь решения. Это особенно важно в анализе данных, где одно неверное чтение легенды ломает весь ответ.
…расширить датасет «нетривиальными» задачами? Полезно включить задания на систематические ошибки: «шумные» наблюдения, смещённые выборки, неожиданные масштабирования осей. Тогда проверится не только «знание формул», но и практическая статистическая интуиция.
…подружить ИИ с учебными материалами? Связка LLM + «карманный учебник» (конспект формул, таблицы преобразований, карточки типов телескопов и фильтров) часто даёт скачок качества без риска утечки ответов.

Плюсы и минусы подхода

Что хорошо Что ограничивает
Сопоставимость с правилами IOAA и «живыми» критериями Неполная картина без наблюдательного тура
Проверка сразу по нескольким годам (устойчивость к «заучиванию») Чувствительность к качеству изображений и разметки
Диагностика слабых мест (геометрия, графики) Воспроизводимость зависит от стабильности промпта
Практическая польза для EdTech, олимпиадной подготовки, научпоп-курсов Неявная «подгонка» под рубрику возможна без строгих блайнд-процедур

FAQ

Как выбрать модель для задач по астрономии?
Ориентируйтесь на устойчивость в анализе данных: по сводным цифрам GPT-5 и Gemini 2.5 Pro держат «золото» в двух турах. Для учебных курсов — добавляйте визуальные подсказки и табличные данные.

Сколько стоит подобный прогон?
Цена зависит от объёма задач и длины контекста. Для экономии используйте пакеты сжатия изображений, разовый прогрев контекста («память формул») и выносите вспомогательные вычисления в локальные скрипты.

Что лучше для подготовки школьников — ИИ или классические сборники?
Оптимальна связка: сборники задач + ИИ как «тьютор», который объясняет ходы и отлавливает ошибки размерности. Для практики пригодятся телескопы начального уровня, планисферы, приложения-планетарии.

Мифы и правда

Сон и психология (почему это может быть релевантно)

Задачи IOAA требуют устойчивого внимания и «пространственного воображения». На стороне пользователя (ученика, преподавателя, разработчика курса) сюда добавляются когнитивная нагрузка и усталость. Практика показывает: короткие сессии по 25–40 минут, чередование типов задач, «разгрузочные» блоки с рисунками и схемами повышают качество решений — как у людей, так и у связок «человек + ИИ». Для занятий подойдут удобные ноутбуки, графические планшеты, приложения для заметок.

Три любопытных факта

  1. Анализ данных в астрономии нередко сводится к проверке «здравого смысла масштаба»: неверно прочитанная ось X почти гарантирует ошибку в выводе.

  2. Простая планисфера и лист миллиметровки иногда помогают больше, чем длинный промпт — даже для ИИ: чёткая опора на геометрию и сетку снижает число «промахов».

  3. Многие задачи IOAA можно свести к нескольким базовым соотношениям (угловые расстояния, период-масса, закон Планка): модели уверенно их применяют, но спотыкаются на визуальных деталях.

Немного истории: как ИИ пришёл к олимпиадам

Вывод

Эксперимент с IOAA показал: на задачах уровня «золота» сегодня решают не только люди. Но чтобы ИИ стал по-настоящему надёжным «олимпиадным ассистентом», ему нужно научиться не просто считать, а «видеть» — удерживать геометрию, работать на небесной сфере и читать графики так же уверенно, как подставлять значения в формулы. Именно здесь пройдёт следующая граница прогресса.


Автор
Олег Белов