ИИ переписал звёзды: GPT-5 взял "золото" на олимпиаде по астрономии

Идея о том, что ИИ справляется с «настоящими» олимпиадными задачами только за счёт заученных шаблонов, в этот раз не сработала. Команды исследователей прогнали свежие наборы Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы и проверили ответы больших языковых моделей по правилам, близким к официальному судейству. Результат громкий: GPT-5 и Gemini 2.5 Pro стабильно доходят до порога «золота» в теории и анализе данных — причём даже на комплекте IOAA-2025, составленном в августе 2025-го, когда в обучающих корпусах моделей ещё не было этих задач. Это хороший индикатор того, что решения строились по смыслу, а не вспоминались из памяти.

Что именно проверяли и как это делали

Организаторы эксперимента взяли два тура — теоретический и по анализу данных (наблюдательный тур не оценивался). Условия унифицировали: одинаковые промпты, чёткие рубрики проверки, сопоставимые критерии оценивания. По итогам нескольких прогонов и усреднения баллов за 2022–2025 годы вышла понятная картина: у GPT-5 ~84,2% по теории и ~88,5% по анализу данных; у Gemini 2.5 Pro — ~85,6% и ~75,7% соответственно. Это уровень «золота» по правилам IOAA.

Другие системы выглядели более «рвано». OpenAI o3 и семейство Claude (4.1 Opus и 4 Sonnet) держали высокий уровень в теории, но проседали в анализе данных: у o3 в 2023–2024 — «серебро», у Claude Opus и Sonnet в 2024–2025 — падение до «бронзы» и даже «без медали». При этом сильные стороны у всех похожи — работа с формулами, расчётами и стандартными физическими соотношениями. А слабые — концептуальные: пространственная геометрия на небесной сфере, чтение и построение графиков, интерпретация схем. Логичный следующий шаг — усиление мультимодальности и появление у моделей «визуального блокнота рассуждений», чтобы держать в уме рисунки, диаграммы и промежуточные построения.

Сравнение результатов по моделям

Модель	Теория (среднее 2022–2025)	Анализ данных (среднее 2022–2025)	Итоговый уровень
GPT-5	~84,2%	~88,5%	«золото» в обоих турах
Gemini 2.5 Pro	~85,6%	~75,7%	«золото»/«золото» (порог достигнут)
OpenAI o3	«золото»	2023–2024: «серебро»	нестабильно
Claude 4.1 Opus	«золото»	2024–2025: до «бронзы»/«без медали»	нестабильно
Claude 4 Sonnet	«золото»	2024–2025: до «бронзы»/«без медали»	нестабильно

Пояснение: «уровень» в таблице — это не официальная медаль, а попадание в соответствующий порог баллов по критериям IOAA.

Как повторить подход: пошаговое руководство

Подготовьте корпус задач. Возьмите открытые комплекты IOAA (теория + анализ данных) за несколько лет. Для «чистоты» включите максимально свежий год.
Настройте единый протокол. Задайте одинаковый промпт-шаблон: формат ответа, допустимые преобразования, какие вспомогательные вычисления разрешены (калькулятор, «черновик», Python-окружение без интернета).
Выберите проверяющую рубрику. Разбейте балл по критериям: физический смысл, формулы, вычисления, графики/чертежи, итоговая интерпретация.
Запустите прогон моделей. Примените одни и те же входные данные (в том числе изображения схем) к нескольким LLM: GPT-5, Gemini 2.5 Pro, o3, Claude 4.1 Opus/4 Sonnet.
Оцените вслепую. Снимите метки модели с ответов, а экспертов-проверяющих попросите выставлять баллы по рубрикам.
Усредните результаты. Посчитайте статистику по годам и турам. Важно фиксировать не только средние, но и разброс.
Проанализируйте ошибки. Отметьте типовые промахи: геометрия на сфере, неверные чтения легенды графиков, путаница единиц.
Внедрите визуальные подсказки. Если модель поддерживает изображения, дайте ей в помощь планисферу, кусочки «атласа неба», схемы телескопов, пометки на графиках — и повторите прогон.

Инструменты по теме: датасеты олимпиад, облачные окружения с GPU, калькуляторы/скриптовые «песочницы», а также образовательные продукты — подготовительные курсы по астрономии и физике, научпоп-книги, цифровые планетарии и приложения-планисферы.

Ошибка → Последствие → Альтернатива

Ошибка: давать модели «грязные» изображения графиков с низким разрешением.
Последствие: неверные считывания точек и трендов.
Альтернатива: использовать чёткие SVG/PNG с крупной шкалой; прикладывать сырые табличные данные для повторной аппроксимации.
Ошибка: смешивать разные форматы подсказок (слишком длинный промпт, противоречивые инструкции).
Последствие: модель теряет контекст и «прыгает» между стратегиями.
Альтернатива: короткий, стабильный шаблон; отдельный блок с допущениями и единицами.
Ошибка: отсутствие проверки единиц измерения.
Последствие: правильная формула — неправильный итог (например, путаница в радианах/градусах).
Альтернатива: ввести «чек-лист единиц»; просить модель явно выписывать размерность.
Ошибка: игнорирование мультишаговой геометрии (небесная сфера, экваториальные координаты).
Последствие: цепочка верных действий ломается на проекциях.
Альтернатива: карточки-подсказки с типовыми преобразованиями и рисунками осей.

В качестве «готовых решений» подойдут: пакеты для визуализации (например, инструменты работы с астрономическими каталогами), онлайн-калькуляторы небесной механики, приложения «мобильный планетарий».

А что если…

…добавить «визуальный блокнот рассуждений»? Тогда модель сможет пошагово чертить вспомогательные окружности, отмечать узлы на графике, подписывать углы и пояснять, почему выбран тот или иной путь решения. Это особенно важно в анализе данных, где одно неверное чтение легенды ломает весь ответ.
…расширить датасет «нетривиальными» задачами? Полезно включить задания на систематические ошибки: «шумные» наблюдения, смещённые выборки, неожиданные масштабирования осей. Тогда проверится не только «знание формул», но и практическая статистическая интуиция.
…подружить ИИ с учебными материалами? Связка LLM + «карманный учебник» (конспект формул, таблицы преобразований, карточки типов телескопов и фильтров) часто даёт скачок качества без риска утечки ответов.

Плюсы и минусы подхода

Что хорошо	Что ограничивает
Сопоставимость с правилами IOAA и «живыми» критериями	Неполная картина без наблюдательного тура
Проверка сразу по нескольким годам (устойчивость к «заучиванию»)	Чувствительность к качеству изображений и разметки
Диагностика слабых мест (геометрия, графики)	Воспроизводимость зависит от стабильности промпта
Практическая польза для EdTech, олимпиадной подготовки, научпоп-курсов	Неявная «подгонка» под рубрику возможна без строгих блайнд-процедур

FAQ

Как выбрать модель для задач по астрономии?
Ориентируйтесь на устойчивость в анализе данных: по сводным цифрам GPT-5 и Gemini 2.5 Pro держат «золото» в двух турах. Для учебных курсов — добавляйте визуальные подсказки и табличные данные.

Сколько стоит подобный прогон?
Цена зависит от объёма задач и длины контекста. Для экономии используйте пакеты сжатия изображений, разовый прогрев контекста («память формул») и выносите вспомогательные вычисления в локальные скрипты.

Что лучше для подготовки школьников — ИИ или классические сборники?
Оптимальна связка: сборники задач + ИИ как «тьютор», который объясняет ходы и отлавливает ошибки размерности. Для практики пригодятся телескопы начального уровня, планисферы, приложения-планетарии.

Мифы и правда

Миф: «Модель просто запомнила решения IOAA».
Правда: свежий комплект 2025 года не входил в тренировочные данные, а результаты не выпали из общей картины — значит, ключевую роль сыграло именно рассуждение.
Миф: «ИИ силён только в формулах, а не в понимании».
Правда: да, формулы — сильная сторона, но как раз концептуальные просчёты и обнаружены. Это зона развития мультимодальности и визуального reasoning.
Миф: «Если добавить ещё параметров, всё решится».
Правда: качество здесь упирается в интерфейс решения задач — изображения, графики, черновик рассуждений. Простое наращивание размера не заменит «визуальный блокнот».

Сон и психология (почему это может быть релевантно)

Задачи IOAA требуют устойчивого внимания и «пространственного воображения». На стороне пользователя (ученика, преподавателя, разработчика курса) сюда добавляются когнитивная нагрузка и усталость. Практика показывает: короткие сессии по 25–40 минут, чередование типов задач, «разгрузочные» блоки с рисунками и схемами повышают качество решений — как у людей, так и у связок «человек + ИИ». Для занятий подойдут удобные ноутбуки, графические планшеты, приложения для заметок.

Три любопытных факта

Анализ данных в астрономии нередко сводится к проверке «здравого смысла масштаба»: неверно прочитанная ось X почти гарантирует ошибку в выводе.
Простая планисфера и лист миллиметровки иногда помогают больше, чем длинный промпт — даже для ИИ: чёткая опора на геометрию и сетку снижает число «промахов».
Многие задачи IOAA можно свести к нескольким базовым соотношениям (угловые расстояния, период-масса, закон Планка): модели уверенно их применяют, но спотыкаются на визуальных деталях.

Немного истории: как ИИ пришёл к олимпиадам

2010-е — первые попытки «натаскать» алгоритмы на стандартные учебные задачи по физике и математике.
2020-е — появление мультимодальных моделей: к тексту добавляются графики, схемы, изображения приборов.
2023–2024 — LLM научились уверенно держать олимпиадную теорию на «серебряном» уровне.
2025 — устойчивое «золото» в теории и анализе данных у лидеров (GPT-5, Gemini 2.5 Pro); выявляется «бутылочное горлышко» — визуально-пространственные шаги.
Ближайшее будущее — «визуальный блокнот рассуждений» и более строгие слепые протоколы оценки.

Вывод

Эксперимент с IOAA показал: на задачах уровня «золота» сегодня решают не только люди. Но чтобы ИИ стал по-настоящему надёжным «олимпиадным ассистентом», ему нужно научиться не просто считать, а «видеть» — удерживать геометрию, работать на небесной сфере и читать графики так же уверенно, как подставлять значения в формулы. Именно здесь пройдёт следующая граница прогресса.

GPT-5 и Gemini 2.5 Pro взяли порог "золото" на задачах IOAA 2022–2025 — исследователи