Осеннее ночное небо над городом
Осеннее ночное небо над городом
Олег Белов Опубликована сегодня в 8:17

ИИ переписал звёзды: GPT-5 взял "золото" на олимпиаде по астрономии — и не списывал

GPT-5 и Gemini 2.5 Pro взяли порог "золото" на задачах IOAA 2022–2025 — исследователи

Идея о том, что ИИ справляется с «настоящими» олимпиадными задачами только за счёт заученных шаблонов, в этот раз не сработала. Команды исследователей прогнали свежие наборы Международной олимпиады по астрономии и астрофизике (IOAA) за 2022–2025 годы и проверили ответы больших языковых моделей по правилам, близким к официальному судейству. Результат громкий: GPT-5 и Gemini 2.5 Pro стабильно доходят до порога «золота» в теории и анализе данных — причём даже на комплекте IOAA-2025, составленном в августе 2025-го, когда в обучающих корпусах моделей ещё не было этих задач. Это хороший индикатор того, что решения строились по смыслу, а не вспоминались из памяти.

Что именно проверяли и как это делали

Организаторы эксперимента взяли два тура — теоретический и по анализу данных (наблюдательный тур не оценивался). Условия унифицировали: одинаковые промпты, чёткие рубрики проверки, сопоставимые критерии оценивания. По итогам нескольких прогонов и усреднения баллов за 2022–2025 годы вышла понятная картина: у GPT-5 ~84,2% по теории и ~88,5% по анализу данных; у Gemini 2.5 Pro — ~85,6% и ~75,7% соответственно. Это уровень «золота» по правилам IOAA.

Другие системы выглядели более «рвано». OpenAI o3 и семейство Claude (4.1 Opus и 4 Sonnet) держали высокий уровень в теории, но проседали в анализе данных: у o3 в 2023–2024 — «серебро», у Claude Opus и Sonnet в 2024–2025 — падение до «бронзы» и даже «без медали». При этом сильные стороны у всех похожи — работа с формулами, расчётами и стандартными физическими соотношениями. А слабые — концептуальные: пространственная геометрия на небесной сфере, чтение и построение графиков, интерпретация схем. Логичный следующий шаг — усиление мультимодальности и появление у моделей «визуального блокнота рассуждений», чтобы держать в уме рисунки, диаграммы и промежуточные построения.

Сравнение результатов по моделям

Модель Теория (среднее 2022–2025) Анализ данных (среднее 2022–2025) Итоговый уровень
GPT-5 ~84,2% ~88,5% «золото» в обоих турах
Gemini 2.5 Pro ~85,6% ~75,7% «золото»/«золото» (порог достигнут)
OpenAI o3 «золото» 2023–2024: «серебро» нестабильно
Claude 4.1 Opus «золото» 2024–2025: до «бронзы»/«без медали» нестабильно
Claude 4 Sonnet «золото» 2024–2025: до «бронзы»/«без медали» нестабильно

Пояснение: «уровень» в таблице — это не официальная медаль, а попадание в соответствующий порог баллов по критериям IOAA.

Как повторить подход: пошаговое руководство

  1. Подготовьте корпус задач. Возьмите открытые комплекты IOAA (теория + анализ данных) за несколько лет. Для «чистоты» включите максимально свежий год.

  2. Настройте единый протокол. Задайте одинаковый промпт-шаблон: формат ответа, допустимые преобразования, какие вспомогательные вычисления разрешены (калькулятор, «черновик», Python-окружение без интернета).

  3. Выберите проверяющую рубрику. Разбейте балл по критериям: физический смысл, формулы, вычисления, графики/чертежи, итоговая интерпретация.

  4. Запустите прогон моделей. Примените одни и те же входные данные (в том числе изображения схем) к нескольким LLM: GPT-5, Gemini 2.5 Pro, o3, Claude 4.1 Opus/4 Sonnet.

  5. Оцените вслепую. Снимите метки модели с ответов, а экспертов-проверяющих попросите выставлять баллы по рубрикам.

  6. Усредните результаты. Посчитайте статистику по годам и турам. Важно фиксировать не только средние, но и разброс.

  7. Проанализируйте ошибки. Отметьте типовые промахи: геометрия на сфере, неверные чтения легенды графиков, путаница единиц.

  8. Внедрите визуальные подсказки. Если модель поддерживает изображения, дайте ей в помощь планисферу, кусочки «атласа неба», схемы телескопов, пометки на графиках — и повторите прогон.

Инструменты по теме: датасеты олимпиад, облачные окружения с GPU, калькуляторы/скриптовые «песочницы», а также образовательные продукты — подготовительные курсы по астрономии и физике, научпоп-книги, цифровые планетарии и приложения-планисферы.

Ошибка → Последствие → Альтернатива

  • Ошибка: давать модели «грязные» изображения графиков с низким разрешением.
    Последствие: неверные считывания точек и трендов.
    Альтернатива: использовать чёткие SVG/PNG с крупной шкалой; прикладывать сырые табличные данные для повторной аппроксимации.

  • Ошибка: смешивать разные форматы подсказок (слишком длинный промпт, противоречивые инструкции).
    Последствие: модель теряет контекст и «прыгает» между стратегиями.
    Альтернатива: короткий, стабильный шаблон; отдельный блок с допущениями и единицами.

  • Ошибка: отсутствие проверки единиц измерения.
    Последствие: правильная формула — неправильный итог (например, путаница в радианах/градусах).
    Альтернатива: ввести «чек-лист единиц»; просить модель явно выписывать размерность.

  • Ошибка: игнорирование мультишаговой геометрии (небесная сфера, экваториальные координаты).
    Последствие: цепочка верных действий ломается на проекциях.
    Альтернатива: карточки-подсказки с типовыми преобразованиями и рисунками осей.

В качестве «готовых решений» подойдут: пакеты для визуализации (например, инструменты работы с астрономическими каталогами), онлайн-калькуляторы небесной механики, приложения «мобильный планетарий».

А что если…

…добавить «визуальный блокнот рассуждений»? Тогда модель сможет пошагово чертить вспомогательные окружности, отмечать узлы на графике, подписывать углы и пояснять, почему выбран тот или иной путь решения. Это особенно важно в анализе данных, где одно неверное чтение легенды ломает весь ответ.
…расширить датасет «нетривиальными» задачами? Полезно включить задания на систематические ошибки: «шумные» наблюдения, смещённые выборки, неожиданные масштабирования осей. Тогда проверится не только «знание формул», но и практическая статистическая интуиция.
…подружить ИИ с учебными материалами? Связка LLM + «карманный учебник» (конспект формул, таблицы преобразований, карточки типов телескопов и фильтров) часто даёт скачок качества без риска утечки ответов.

Плюсы и минусы подхода

Что хорошо Что ограничивает
Сопоставимость с правилами IOAA и «живыми» критериями Неполная картина без наблюдательного тура
Проверка сразу по нескольким годам (устойчивость к «заучиванию») Чувствительность к качеству изображений и разметки
Диагностика слабых мест (геометрия, графики) Воспроизводимость зависит от стабильности промпта
Практическая польза для EdTech, олимпиадной подготовки, научпоп-курсов Неявная «подгонка» под рубрику возможна без строгих блайнд-процедур

FAQ

Как выбрать модель для задач по астрономии?
Ориентируйтесь на устойчивость в анализе данных: по сводным цифрам GPT-5 и Gemini 2.5 Pro держат «золото» в двух турах. Для учебных курсов — добавляйте визуальные подсказки и табличные данные.

Сколько стоит подобный прогон?
Цена зависит от объёма задач и длины контекста. Для экономии используйте пакеты сжатия изображений, разовый прогрев контекста («память формул») и выносите вспомогательные вычисления в локальные скрипты.

Что лучше для подготовки школьников — ИИ или классические сборники?
Оптимальна связка: сборники задач + ИИ как «тьютор», который объясняет ходы и отлавливает ошибки размерности. Для практики пригодятся телескопы начального уровня, планисферы, приложения-планетарии.

Мифы и правда

  • Миф: «Модель просто запомнила решения IOAA».
    Правда: свежий комплект 2025 года не входил в тренировочные данные, а результаты не выпали из общей картины — значит, ключевую роль сыграло именно рассуждение.

  • Миф: «ИИ силён только в формулах, а не в понимании».
    Правда: да, формулы — сильная сторона, но как раз концептуальные просчёты и обнаружены. Это зона развития мультимодальности и визуального reasoning.

  • Миф: «Если добавить ещё параметров, всё решится».
    Правда: качество здесь упирается в интерфейс решения задач — изображения, графики, черновик рассуждений. Простое наращивание размера не заменит «визуальный блокнот».

Сон и психология (почему это может быть релевантно)

Задачи IOAA требуют устойчивого внимания и «пространственного воображения». На стороне пользователя (ученика, преподавателя, разработчика курса) сюда добавляются когнитивная нагрузка и усталость. Практика показывает: короткие сессии по 25–40 минут, чередование типов задач, «разгрузочные» блоки с рисунками и схемами повышают качество решений — как у людей, так и у связок «человек + ИИ». Для занятий подойдут удобные ноутбуки, графические планшеты, приложения для заметок.

Три любопытных факта

  1. Анализ данных в астрономии нередко сводится к проверке «здравого смысла масштаба»: неверно прочитанная ось X почти гарантирует ошибку в выводе.

  2. Простая планисфера и лист миллиметровки иногда помогают больше, чем длинный промпт — даже для ИИ: чёткая опора на геометрию и сетку снижает число «промахов».

  3. Многие задачи IOAA можно свести к нескольким базовым соотношениям (угловые расстояния, период-масса, закон Планка): модели уверенно их применяют, но спотыкаются на визуальных деталях.

Немного истории: как ИИ пришёл к олимпиадам

  • 2010-е — первые попытки «натаскать» алгоритмы на стандартные учебные задачи по физике и математике.

  • 2020-е — появление мультимодальных моделей: к тексту добавляются графики, схемы, изображения приборов.

  • 2023–2024 — LLM научились уверенно держать олимпиадную теорию на «серебряном» уровне.

  • 2025 — устойчивое «золото» в теории и анализе данных у лидеров (GPT-5, Gemini 2.5 Pro); выявляется «бутылочное горлышко» — визуально-пространственные шаги.

  • Ближайшее будущее — «визуальный блокнот рассуждений» и более строгие слепые протоколы оценки.

Вывод

Эксперимент с IOAA показал: на задачах уровня «золота» сегодня решают не только люди. Но чтобы ИИ стал по-настоящему надёжным «олимпиадным ассистентом», ему нужно научиться не просто считать, а «видеть» — удерживать геометрию, работать на небесной сфере и читать графики так же уверенно, как подставлять значения в формулы. Именно здесь пройдёт следующая граница прогресса.

Подписывайтесь на NewsInfo.Ru

Читайте также

Принц Гарри обвинил технологические корпорации в эксплуатации детей ради прибыли сегодня в 9:17
Алгоритмы против детства: принц Гарри обвинил соцсети в эксплуатации детей

На благотворительном вечере в Нью-Йорке принц Гарри и Меган Маркл призвали мир защитить детей от давления социальных сетей. Что именно они предложили?

Читать полностью »
Эксперт Садыков: при взломе Telegram важно не закрывать активную сессию и завершить чужие входы сегодня в 0:17
У вас есть 24 часа: что делать, если Telegram начали взламывать

Telegram оставляет пользователю сутки, чтобы вернуть украденный аккаунт. Что нужно сделать в эти 24 часа и как обезопасить профиль навсегда.

Читать полностью »
Бывший дизайнер Apple Джони Айв рассказал о совместном проекте с OpenAI — устройстве без экрана вчера в 23:14
Человек против экрана: Джони Айв и OpenAI хотят избавить нас от смартфонов

Джони Айв рассказал о планах с OpenAI создать устройство, которое избавит людей от цифровой зависимости и вернёт технологиям человечность.

Читать полностью »
RTM Group: хакеры атакуют компании РФ через кружки с подогревом и портативные колонки вчера в 22:13
Кружка с подогревом превратилась в троянского коня: как хакеры проникают в офисы через безобидные гаджеты

Хакеры все чаще используют привычные офисные гаджеты — от кружек до ламп — как инструмент кибератак. Почему это опаснее, чем кажется, и как бизнесу защититься?

Читать полностью »
Unitree: модели G1, H1, Go2 и B2 затронуты уязвимостью UniPwn в ряде прошивок вчера в 21:16
Ходячие компьютеры без защиты: как хакеры могут подчинить робота за секунды

Уязвимость UniPwn открыла путь к удалённому захвату управления роботами Unitree и возможному самораспространению по BLE. Что делать владельцу и как исправить прошивки?

Читать полностью »
Circana: 63% американских геймеров покупают не более двух игр в год вчера в 20:02
Консоль есть — денег нет: кто теперь кормит игровую индустрию США

Новое исследование показало, что большинство американских геймеров почти не покупают игры, а игровая индустрия живет за счет небольшой группы фанатов.

Читать полностью »
Глава Nvidia Дженсен Хуанг признал, что компания недооценила потенциал стартапа Илона Маска xAI вчера в 19:17
"Мы недооценили Маска": глава Nvidia признал упущенный миллиардный момент

Глава Nvidia Дженсен Хуанг признал, что компания недооценила потенциал стартапа Илона Маска xAI. Почему он считает ИИ-бум не «пузырём», а многотриллионным проектом будущего.

Читать полностью »
Apple вводит обязательное подтверждение возраста пользователей App Store в Техасе с 2026 года вчера в 18:56
Apple сдаётся под давлением Техаса: теперь за каждый клик придётся отчитываться

Apple изменила правила App Store в Техасе: теперь пользователи должны подтвердить совершеннолетие, а родителям придется одобрять все покупки и загрузки детей.

Читать полностью »