DeepSeek
DeepSeek
Олег Белов Опубликована 20.09.2025 в 1:16

Её никто не учил думать — но она научилась: как китайская модель удивила весь мир

Nature: китайская команда представила модель DeepSeek-R1, способную рассуждать без подсказок

В журнале Nature вышла статья, которая уже вызвала бурные обсуждения в научных кругах. Китайская команда представила DeepSeek-R1 - первую масштабную языковую модель, которая научилась рассуждать без подсказок человека. Это открытие называют одним из самых значимых прорывов в развитии искусственного интеллекта последних лет.

В чём отличие от прежних моделей

До сих пор обучение моделей рассуждения (reasoning models) строилось на основе больших наборов данных. Для каждой задачи исследователи вручную создавали цепочки мыслей: пошаговые объяснения решения. ИИ копировал их и учился "думать", но при этом не вырабатывал собственной стратегии.

DeepSeek-R1 нарушила эту традицию. Модель обучали только по принципу "правильно/неправильно". Она получала награду за итоговый ответ, а вот способ нахождения решения выбирала сама.

Ключевой технологией стал алгоритм Group Relative Policy Optimization (GRPO). Он позволил системе:

  • проверять промежуточные шаги,

  • критиковать собственные ошибки,

  • менять методику, если ответ не сходился,

  • постепенно увеличивать время "обдумывания".

Результаты: от 15% до 87%

Прорывность подхода подтверждают цифры. В математическом бенчмарке AIME точность модели выросла с 15% до 78%. А при включении механизма самопроверки показатели поднялись до 87% — выше среднего уровня участников олимпиады.

Модель также показала сильные результаты в задачах по программированию и естественным наукам, обойдя все системы своего масштаба и приблизившись к куда более крупным конкурентам.

Примечательно, что даже упрощённые версии DeepSeek-R1 сохраняют большую часть новых навыков. Это открывает путь к созданию компактных моделей, пригодных для реального применения.

Сравнение подходов

Подход к обучению Особенности Результаты
Классический (с примерами) Человеческие цепочки рассуждений ограниченная гибкость
DeepSeek-R1 (GRPO) Награда только за конечный ответ самостоятельные стратегии, рост точности
DeepSeek-R1 с самопроверкой Дополнительно анализ промежуточных шагов 87% точности в AIME

Сильные и слабые стороны

Несмотря на успехи, модель пока не идеальна:

  • стиль ответов иногда страдает;

  • встречаются смешения языков;

  • гуманитарные дисциплины даются хуже, чем математика и STEM.

Тем не менее в области естественных наук и инженерных задач потенциал огромный.

Советы шаг за шагом: как использовать новые модели

  1. Для обучения студентов математике и программированию — как генератор задач и решений.

  2. Для исследователей — как инструмент поиска закономерностей в больших данных.

  3. Для инженеров — как помощник при проектировании решений, где важен перебор стратегий.

  4. Для компаний — внедрение упрощённых версий в образовательные и аналитические продукты.

  5. Для пользователей — как интеллектуальный тренажёр, помогающий развивать собственное мышление.

Ошибка → Последствие → Альтернатива

  • Ошибка: полагаться только на старые методы обучения ИИ.
    Последствие: низкая гибкость моделей.
    Альтернатива: внедрение методов типа GRPO.

  • Ошибка: считать, что без человека ИИ "ничего не придумает".
    Последствие: недооценка возможностей новых моделей.
    Альтернатива: учитывать, что самостоятельное рассуждение возможно.

  • Ошибка: игнорировать слабые стороны (например, гуманитарные темы).
    Последствие: искажения в ответах.
    Альтернатива: комбинировать ИИ с экспертными проверками.

А что если…

А что будет, если такие модели начнут работать не только с задачами олимпиадного уровня, но и с фундаментальной наукой? Возможно, ИИ впервые сможет открывать новые законы или строить гипотезы без прямого вмешательства исследователей. Это поставит новые вопросы: станет ли ИИ соавтором научных открытий и как изменится роль человека в науке?

Плюсы и минусы DeepSeek-R1

Плюсы Минусы
Самостоятельное формирование стратегии Ошибки в стиле и языковом оформлении
Высокая точность в математике Слабее в гуманитарных задачах
Компактные версии сохраняют навыки Возможны "шумы" в длинных рассуждениях
Подходит для STEM-дисциплин Требуется дальнейшая доработка

FAQ

Как обучали DeepSeek-R1?
На базе двух миллионов геномов фагов и алгоритма GRPO, без примеров пошаговых рассуждений.

Чем это отличается от ChatGPT?
ChatGPT учился на человеческих цепочках мыслей, а DeepSeek-R1 — на принципе конечной награды.

Где можно применить модель?
В образовании, инженерии, научных исследованиях и аналитике больших данных.

Мифы и правда

  • Миф: модель просто копирует чужие решения.
    Правда: она вырабатывает собственные стратегии и корректирует ошибки.

  • Миф: без человека ИИ не может рассуждать.
    Правда: DeepSeek-R1 доказала обратное.

  • Миф: компактные модели всегда хуже.
    Правда: облегчённые версии сохранили ключевые навыки.

3 интересных факта

• В AIME модель превысила средний результат реальных участников.
• Средняя длина ответов увеличивалась по мере обучения — ИИ "брал больше времени на обдумывание".
• В статье Nature отмечается, что подход GRPO может стать стандартом для будущих reasoning-моделей.

Исторический контекст

  • До 2020-х: языковые модели решают задачи только через текстовую генерацию.

  • 2023 год: появляются первые модели с ручными цепочками рассуждений.

  • 2025 год: DeepSeek-R1 показывает, что можно обучать рассуждению без примеров от человека.

Подписывайтесь на NewsInfo.Ru

Читайте также

Бумагу можно переработать до шести раз — эколог Пешков сегодня в 13:35
Пакет против пластика: какой пакет в магазине на самом деле стоит выбирать

Эколог Андрей Пешков пояснил NewsInfo, почему бумажные пакеты экологичнее пластиковых.

Читать полностью »
Православный мессенджер Зосима выйдет в первой половине 2026 года — Агапов 06.12.2025 в 7:57
Секретный проект раскрыт: Зосима выйдет в 2026-м и обещает стать главным духовным каналом

Православный мессенджер "Зосима" готовят к публичному запуску в 2026-м: тест уже прошли тысячи пользователей, а дальше всё решит масштабирование.

Читать полностью »
Конфликт приложений может замедлять работу гаджета — IT-эксперт Муртазин 05.12.2025 в 13:34
Когда телефон живет своей жизнью: из-за этих процессов гаджет начинает тормозить

Аналитик Эльдар Муртазин объяснил NewsInfo почему телефон может перегреваться и "тормозить".

Читать полностью »
Pokemon TCG Pocket признана лучшей игрой для iPhone — App Store Awards 2025 05.12.2025 в 13:25
Игры и приложения года раскрыты: пользователи не ожидали такого расклада от Apple

Премия App Store Awards 2025 изменила расстановку сил между крупными студиями и независимыми разработчиками, показав неожиданные приоритеты индустрии.

Читать полностью »
Модели телевизоров от Tuvio, TCL и Hisense названы лучшими до 17 тысяч рублей — Палач 05.12.2025 в 13:15
Бюджетные телевизоры поражают возможностями: не думал, что за такие деньги бывает такое

Подборка трёх доступных телевизоров до 17 тысяч рублей показывает, как бюджетный сегмент постепенно перенимает функции более дорогих моделей, сохраняя привлекательную цену.

Читать полностью »
Теневые каналы в Telegram живут в среднем семь месяцев — Лаборатория Касперского 05.12.2025 в 9:36
Лаборатория Касперского раскрыла правду: почему даже крупные теневые каналы в Telegram живут недолго

Kaspersky изучила 800+ теневых Telegram-каналов: в среднем они живут около семи месяцев. Почему блокировки усилились и куда уходят крупные сообщества?

Читать полностью »
Расширения WeTab и Infinity V+ собирали данные 4 млн пользователей — KOI Security 05.12.2025 в 8:57
Осторожно, обновление: как безобидное расширение после апдейта начало похищать ваши пароли

WeTab и Infinity V+ подозревают в скрытом сборе данных через обновления. Как работала "долгая" атака и почему пострадали миллионы пользователей?

Читать полностью »
Вредоносное ПО для Android закрепляется в системе — ТАСС 05.12.2025 в 8:23
Мошенники знают ваши слабые места: почему вы добровольно установите троян под видом YouTube Pro

Под видом "18+" и "расширенных" TikTok и YouTube пользователям подсовывают трояны. Как устроена сеть сайтов и что нашли операторы.

Читать полностью »