DeepSeek
DeepSeek
Олег Белов Опубликована сегодня в 1:16

Её никто не учил думать — но она научилась: как китайская модель удивила весь мир

Nature: китайская команда представила модель DeepSeek-R1, способную рассуждать без подсказок

В журнале Nature вышла статья, которая уже вызвала бурные обсуждения в научных кругах. Китайская команда представила DeepSeek-R1 - первую масштабную языковую модель, которая научилась рассуждать без подсказок человека. Это открытие называют одним из самых значимых прорывов в развитии искусственного интеллекта последних лет.

В чём отличие от прежних моделей

До сих пор обучение моделей рассуждения (reasoning models) строилось на основе больших наборов данных. Для каждой задачи исследователи вручную создавали цепочки мыслей: пошаговые объяснения решения. ИИ копировал их и учился "думать", но при этом не вырабатывал собственной стратегии.

DeepSeek-R1 нарушила эту традицию. Модель обучали только по принципу "правильно/неправильно". Она получала награду за итоговый ответ, а вот способ нахождения решения выбирала сама.

Ключевой технологией стал алгоритм Group Relative Policy Optimization (GRPO). Он позволил системе:

  • проверять промежуточные шаги,

  • критиковать собственные ошибки,

  • менять методику, если ответ не сходился,

  • постепенно увеличивать время "обдумывания".

Результаты: от 15% до 87%

Прорывность подхода подтверждают цифры. В математическом бенчмарке AIME точность модели выросла с 15% до 78%. А при включении механизма самопроверки показатели поднялись до 87% — выше среднего уровня участников олимпиады.

Модель также показала сильные результаты в задачах по программированию и естественным наукам, обойдя все системы своего масштаба и приблизившись к куда более крупным конкурентам.

Примечательно, что даже упрощённые версии DeepSeek-R1 сохраняют большую часть новых навыков. Это открывает путь к созданию компактных моделей, пригодных для реального применения.

Сравнение подходов

Подход к обучению Особенности Результаты
Классический (с примерами) Человеческие цепочки рассуждений ограниченная гибкость
DeepSeek-R1 (GRPO) Награда только за конечный ответ самостоятельные стратегии, рост точности
DeepSeek-R1 с самопроверкой Дополнительно анализ промежуточных шагов 87% точности в AIME

Сильные и слабые стороны

Несмотря на успехи, модель пока не идеальна:

  • стиль ответов иногда страдает;

  • встречаются смешения языков;

  • гуманитарные дисциплины даются хуже, чем математика и STEM.

Тем не менее в области естественных наук и инженерных задач потенциал огромный.

Советы шаг за шагом: как использовать новые модели

  1. Для обучения студентов математике и программированию — как генератор задач и решений.

  2. Для исследователей — как инструмент поиска закономерностей в больших данных.

  3. Для инженеров — как помощник при проектировании решений, где важен перебор стратегий.

  4. Для компаний — внедрение упрощённых версий в образовательные и аналитические продукты.

  5. Для пользователей — как интеллектуальный тренажёр, помогающий развивать собственное мышление.

Ошибка → Последствие → Альтернатива

  • Ошибка: полагаться только на старые методы обучения ИИ.
    Последствие: низкая гибкость моделей.
    Альтернатива: внедрение методов типа GRPO.

  • Ошибка: считать, что без человека ИИ "ничего не придумает".
    Последствие: недооценка возможностей новых моделей.
    Альтернатива: учитывать, что самостоятельное рассуждение возможно.

  • Ошибка: игнорировать слабые стороны (например, гуманитарные темы).
    Последствие: искажения в ответах.
    Альтернатива: комбинировать ИИ с экспертными проверками.

А что если…

А что будет, если такие модели начнут работать не только с задачами олимпиадного уровня, но и с фундаментальной наукой? Возможно, ИИ впервые сможет открывать новые законы или строить гипотезы без прямого вмешательства исследователей. Это поставит новые вопросы: станет ли ИИ соавтором научных открытий и как изменится роль человека в науке?

Плюсы и минусы DeepSeek-R1

Плюсы Минусы
Самостоятельное формирование стратегии Ошибки в стиле и языковом оформлении
Высокая точность в математике Слабее в гуманитарных задачах
Компактные версии сохраняют навыки Возможны "шумы" в длинных рассуждениях
Подходит для STEM-дисциплин Требуется дальнейшая доработка

FAQ

Как обучали DeepSeek-R1?
На базе двух миллионов геномов фагов и алгоритма GRPO, без примеров пошаговых рассуждений.

Чем это отличается от ChatGPT?
ChatGPT учился на человеческих цепочках мыслей, а DeepSeek-R1 — на принципе конечной награды.

Где можно применить модель?
В образовании, инженерии, научных исследованиях и аналитике больших данных.

Мифы и правда

  • Миф: модель просто копирует чужие решения.
    Правда: она вырабатывает собственные стратегии и корректирует ошибки.

  • Миф: без человека ИИ не может рассуждать.
    Правда: DeepSeek-R1 доказала обратное.

  • Миф: компактные модели всегда хуже.
    Правда: облегчённые версии сохранили ключевые навыки.

3 интересных факта

• В AIME модель превысила средний результат реальных участников.
• Средняя длина ответов увеличивалась по мере обучения — ИИ "брал больше времени на обдумывание".
• В статье Nature отмечается, что подход GRPO может стать стандартом для будущих reasoning-моделей.

Исторический контекст

  • До 2020-х: языковые модели решают задачи только через текстовую генерацию.

  • 2023 год: появляются первые модели с ручными цепочками рассуждений.

  • 2025 год: DeepSeek-R1 показывает, что можно обучать рассуждению без примеров от человека.

Подписывайтесь на NewsInfo.Ru

Читайте также

МВД России: фото для паспортов, созданные нейросетями, приведут к отказу сегодня в 5:16

Слишком красиво — отказ: МВД забраковало фото из нейросетей

МВД предупредило: фото для паспорта, созданное нейросетью или фотошопом, приведёт к отказу. Объясняем, какие требования действуют и как избежать ошибок.

Читать полностью »
iPhone 17 Pro и Pro Max получили охлаждение с испарительной камерой — BigGeek сегодня в 3:16

Теперь iPhone — это консоль: новый 17 Pro справляется с играми лучше, чем многие ПК

iPhone 17 Pro получил уникальную систему охлаждения и стал первым «айфоном для геймеров». Но насколько он способен заменить игровую консоль?

Читать полностью »
Что изменится после окончания поддержки Windows 10 — разъяснение эксперта вчера в 16:52

Последний звонок для "десятки": что потеряют пользователи, отказавшись переходить на Windows 11

Microsoft готовится завершить поддержку Windows 10, и миллионы пользователей окажутся перед выбором: обновляться, менять систему или рисковать безопасностью.

Читать полностью »
Бесплатные игры недели в Epic Games Store на Android: Samorost 2 и Road Redemption Mobile вчера в 15:16

Сказка против адреналина: две бесплатные игры недели, и выбор окажется сложнее, чем кажется

Epic Games Store дарит Android-пользователям сразу два проекта: атмосферный Samorost 2 и драйвовый Road Redemption Mobile.

Читать полностью »
iPhone 17 Pro Max показал почти 8 часов автономной работы в тесте The Tech Chap вчера в 14:55

Батарея против времени: какой новый iPhone доживёт до восьмого часа без розетки

Тестирование новых iPhone показало неожиданные результаты: компактные и тонкие модели смогли удивить, а флагман снова улучшил рекорды.

Читать полностью »
Новая модель GreenOCR 2.0 снизила энергопотребление на 20% — Smart Engines вчера в 12:13

Читает быстрее, ест меньше: в России запустили нейросеть, которая экономит электричество

Smart Engines представила нейросетевую модель GreenOCR 2.0. Она работает быстрее, точнее и на 20% экономичнее, чем предыдущие версии.

Читать полностью »
Правительство РФ рассматривает запуск маглевов и Hyperloop в ближайшие 10 лет вчера в 12:24

Скорость как у самолёта, но по рельсам: что за монстры появятся на российских путях

В России в ближайшие 10 лет могут появиться маглевы и даже прототипы Hyperloop. Как новые технологии изменят транспорт и конкуренцию с авиацией?

Читать полностью »
МВД предупредило о рассылке мошеннических событий в календаре Apple вчера в 11:18

Никаких писем и звонков — мошенники теперь атакуют через календарь iPhone

Мошенники научились использовать встроенный календарь iPhone для рассылки фишинговых уведомлений. Почему схема оказалась такой эффективной и как защититься?

Читать полностью »