
ИИ переписал звёзды: GPT-5 взял "золото" на олимпиаде по астрономии — и не списывал
Идея о том, что ИИ справляется с «настоящими» олимпиадными задачами только за счёт заученных шаблонов, в этот раз не сработала. Команды исследователей прогнали свежие наборы Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы и проверили ответы больших языковых моделей по правилам, близким к официальному судейству. Результат громкий: GPT-5 и Gemini 2.5 Pro стабильно доходят до порога «золота» в теории и анализе данных — причём даже на комплекте IOAA-2025, составленном в августе 2025-го, когда в обучающих корпусах моделей ещё не было этих задач. Это хороший индикатор того, что решения строились по смыслу, а не вспоминались из памяти.
Что именно проверяли и как это делали
Организаторы эксперимента взяли два тура — теоретический и по анализу данных (наблюдательный тур не оценивался). Условия унифицировали: одинаковые промпты, чёткие рубрики проверки, сопоставимые критерии оценивания. По итогам нескольких прогонов и усреднения баллов за 2022–2025 годы вышла понятная картина: у GPT-5 ~84,2% по теории и ~88,5% по анализу данных; у Gemini 2.5 Pro — ~85,6% и ~75,7% соответственно. Это уровень «золота» по правилам IOAA.
Другие системы выглядели более «рвано». OpenAI o3 и семейство Claude (4.1 Opus и 4 Sonnet) держали высокий уровень в теории, но проседали в анализе данных: у o3 в 2023–2024 — «серебро», у Claude Opus и Sonnet в 2024–2025 — падение до «бронзы» и даже «без медали». При этом сильные стороны у всех похожи — работа с формулами, расчётами и стандартными физическими соотношениями. А слабые — концептуальные: пространственная геометрия на небесной сфере, чтение и построение графиков, интерпретация схем. Логичный следующий шаг — усиление мультимодальности и появление у моделей «визуального блокнота рассуждений», чтобы держать в уме рисунки, диаграммы и промежуточные построения.
Сравнение результатов по моделям
Модель | Теория (среднее 2022–2025) | Анализ данных (среднее 2022–2025) | Итоговый уровень |
GPT-5 | ~84,2% | ~88,5% | «золото» в обоих турах |
Gemini 2.5 Pro | ~85,6% | ~75,7% | «золото»/«золото» (порог достигнут) |
OpenAI o3 | «золото» | 2023–2024: «серебро» | нестабильно |
Claude 4.1 Opus | «золото» | 2024–2025: до «бронзы»/«без медали» | нестабильно |
Claude 4 Sonnet | «золото» | 2024–2025: до «бронзы»/«без медали» | нестабильно |
Пояснение: «уровень» в таблице — это не официальная медаль, а попадание в соответствующий порог баллов по критериям IOAA.
Как повторить подход: пошаговое руководство
-
Подготовьте корпус задач. Возьмите открытые комплекты IOAA (теория + анализ данных) за несколько лет. Для «чистоты» включите максимально свежий год.
-
Настройте единый протокол. Задайте одинаковый промпт-шаблон: формат ответа, допустимые преобразования, какие вспомогательные вычисления разрешены (калькулятор, «черновик», Python-окружение без интернета).
-
Выберите проверяющую рубрику. Разбейте балл по критериям: физический смысл, формулы, вычисления, графики/чертежи, итоговая интерпретация.
-
Запустите прогон моделей. Примените одни и те же входные данные (в том числе изображения схем) к нескольким LLM: GPT-5, Gemini 2.5 Pro, o3, Claude 4.1 Opus/4 Sonnet.
-
Оцените вслепую. Снимите метки модели с ответов, а экспертов-проверяющих попросите выставлять баллы по рубрикам.
-
Усредните результаты. Посчитайте статистику по годам и турам. Важно фиксировать не только средние, но и разброс.
-
Проанализируйте ошибки. Отметьте типовые промахи: геометрия на сфере, неверные чтения легенды графиков, путаница единиц.
-
Внедрите визуальные подсказки. Если модель поддерживает изображения, дайте ей в помощь планисферу, кусочки «атласа неба», схемы телескопов, пометки на графиках — и повторите прогон.
Инструменты по теме: датасеты олимпиад, облачные окружения с GPU, калькуляторы/скриптовые «песочницы», а также образовательные продукты — подготовительные курсы по астрономии и физике, научпоп-книги, цифровые планетарии и приложения-планисферы.
Ошибка → Последствие → Альтернатива
-
Ошибка: давать модели «грязные» изображения графиков с низким разрешением.
Последствие: неверные считывания точек и трендов.
Альтернатива: использовать чёткие SVG/PNG с крупной шкалой; прикладывать сырые табличные данные для повторной аппроксимации. -
Ошибка: смешивать разные форматы подсказок (слишком длинный промпт, противоречивые инструкции).
Последствие: модель теряет контекст и «прыгает» между стратегиями.
Альтернатива: короткий, стабильный шаблон; отдельный блок с допущениями и единицами. -
Ошибка: отсутствие проверки единиц измерения.
Последствие: правильная формула — неправильный итог (например, путаница в радианах/градусах).
Альтернатива: ввести «чек-лист единиц»; просить модель явно выписывать размерность. -
Ошибка: игнорирование мультишаговой геометрии (небесная сфера, экваториальные координаты).
Последствие: цепочка верных действий ломается на проекциях.
Альтернатива: карточки-подсказки с типовыми преобразованиями и рисунками осей.
В качестве «готовых решений» подойдут: пакеты для визуализации (например, инструменты работы с астрономическими каталогами), онлайн-калькуляторы небесной механики, приложения «мобильный планетарий».
А что если…
…добавить «визуальный блокнот рассуждений»? Тогда модель сможет пошагово чертить вспомогательные окружности, отмечать узлы на графике, подписывать углы и пояснять, почему выбран тот или иной путь решения. Это особенно важно в анализе данных, где одно неверное чтение легенды ломает весь ответ.
…расширить датасет «нетривиальными» задачами? Полезно включить задания на систематические ошибки: «шумные» наблюдения, смещённые выборки, неожиданные масштабирования осей. Тогда проверится не только «знание формул», но и практическая статистическая интуиция.
…подружить ИИ с учебными материалами? Связка LLM + «карманный учебник» (конспект формул, таблицы преобразований, карточки типов телескопов и фильтров) часто даёт скачок качества без риска утечки ответов.
Плюсы и минусы подхода
Что хорошо | Что ограничивает |
Сопоставимость с правилами IOAA и «живыми» критериями | Неполная картина без наблюдательного тура |
Проверка сразу по нескольким годам (устойчивость к «заучиванию») | Чувствительность к качеству изображений и разметки |
Диагностика слабых мест (геометрия, графики) | Воспроизводимость зависит от стабильности промпта |
Практическая польза для EdTech, олимпиадной подготовки, научпоп-курсов | Неявная «подгонка» под рубрику возможна без строгих блайнд-процедур |
FAQ
Как выбрать модель для задач по астрономии?
Ориентируйтесь на устойчивость в анализе данных: по сводным цифрам GPT-5 и Gemini 2.5 Pro держат «золото» в двух турах. Для учебных курсов — добавляйте визуальные подсказки и табличные данные.
Сколько стоит подобный прогон?
Цена зависит от объёма задач и длины контекста. Для экономии используйте пакеты сжатия изображений, разовый прогрев контекста («память формул») и выносите вспомогательные вычисления в локальные скрипты.
Что лучше для подготовки школьников — ИИ или классические сборники?
Оптимальна связка: сборники задач + ИИ как «тьютор», который объясняет ходы и отлавливает ошибки размерности. Для практики пригодятся телескопы начального уровня, планисферы, приложения-планетарии.
Мифы и правда
-
Миф: «Модель просто запомнила решения IOAA».
Правда: свежий комплект 2025 года не входил в тренировочные данные, а результаты не выпали из общей картины — значит, ключевую роль сыграло именно рассуждение. -
Миф: «ИИ силён только в формулах, а не в понимании».
Правда: да, формулы — сильная сторона, но как раз концептуальные просчёты и обнаружены. Это зона развития мультимодальности и визуального reasoning. -
Миф: «Если добавить ещё параметров, всё решится».
Правда: качество здесь упирается в интерфейс решения задач — изображения, графики, черновик рассуждений. Простое наращивание размера не заменит «визуальный блокнот».
Сон и психология (почему это может быть релевантно)
Задачи IOAA требуют устойчивого внимания и «пространственного воображения». На стороне пользователя (ученика, преподавателя, разработчика курса) сюда добавляются когнитивная нагрузка и усталость. Практика показывает: короткие сессии по 25–40 минут, чередование типов задач, «разгрузочные» блоки с рисунками и схемами повышают качество решений — как у людей, так и у связок «человек + ИИ». Для занятий подойдут удобные ноутбуки, графические планшеты, приложения для заметок.
Три любопытных факта
-
Анализ данных в астрономии нередко сводится к проверке «здравого смысла масштаба»: неверно прочитанная ось X почти гарантирует ошибку в выводе.
-
Простая планисфера и лист миллиметровки иногда помогают больше, чем длинный промпт — даже для ИИ: чёткая опора на геометрию и сетку снижает число «промахов».
-
Многие задачи IOAA можно свести к нескольким базовым соотношениям (угловые расстояния, период-масса, закон Планка): модели уверенно их применяют, но спотыкаются на визуальных деталях.
Немного истории: как ИИ пришёл к олимпиадам
-
2010-е — первые попытки «натаскать» алгоритмы на стандартные учебные задачи по физике и математике.
-
2020-е — появление мультимодальных моделей: к тексту добавляются графики, схемы, изображения приборов.
-
2023–2024 — LLM научились уверенно держать олимпиадную теорию на «серебряном» уровне.
-
2025 — устойчивое «золото» в теории и анализе данных у лидеров (GPT-5, Gemini 2.5 Pro); выявляется «бутылочное горлышко» — визуально-пространственные шаги.
-
Ближайшее будущее — «визуальный блокнот рассуждений» и более строгие слепые протоколы оценки.
Вывод
Эксперимент с IOAA показал: на задачах уровня «золота» сегодня решают не только люди. Но чтобы ИИ стал по-настоящему надёжным «олимпиадным ассистентом», ему нужно научиться не просто считать, а «видеть» — удерживать геометрию, работать на небесной сфере и читать графики так же уверенно, как подставлять значения в формулы. Именно здесь пройдёт следующая граница прогресса.
Подписывайтесь на NewsInfo.Ru