DeepSeek
DeepSeek
Олег Белов Опубликована сегодня в 0:16

ИИ за $294 тысячи: китайская компания обошла OpenAI без миллиарда в кармане

Стоимость обучения ИИ-модели DeepSeek составила $294 тыс. против $100 млн у OpenAI

История китайской компании DeepSeek показывает, что на рынке искусственного интеллекта победа зависит не только от мощности чипов, но и от умения грамотно использовать ресурсы. Компания заявила, что обучение её модели R1 обошлось всего в $294 тыс., что в десятки и даже сотни раз меньше, чем суммы, которые называют американские конкуренты. Такой результат стал возможен благодаря эффективной организации вычислений и использованию доступных ускорителей Nvidia.

Сколько стоит обучение ИИ

Тренировка крупной языковой модели требует колоссальных мощностей: тысячи ускорителей работают неделями, обрабатывая терабайты текста и кода. Стоимость таких экспериментов обычно измеряется десятками миллионов долларов. В 2023 году, например, глава OpenAI Сэм Альтман называл цифру в $100 млн за обучение базовой модели, хотя точные детали так и не были раскрыты.

На этом фоне отчёт DeepSeek выглядит почти сенсационно. Компания задействовала 512 ускорителей Nvidia H800, разработанных специально для китайского рынка. Эти чипы слабее флагманских H100 и A100, поставки которых в КНР ограничены. Но, как показал опыт, даже H800 при правильной организации способны дать результат.

Политика и чипы

Вокруг DeepSeek развернулась и геополитическая история. Американские власти подозревали, что китайская компания имела доступ к запрещённым H100, несмотря на экспортный контроль. В июне официальные лица США заявили, что DeepSeek закупила значительные партии этих чипов ещё до введения ограничений. Nvidia же утверждает, что для обучения R1 применялись именно H800.

Кроме того, DeepSeek впервые признала владение A100, но пояснила, что они использовались лишь для подготовки к экспериментам с меньшими моделями. Основная часть обучения заняла 80 часов и прошла на H800.

Обвинения в копировании

После релиза R1 в январе 2025 года конкуренты обвинили DeepSeek в том, что её модель якобы создана с помощью дистилляции решений OpenAI. Такой метод предполагает, что крупная модель используется для обучения более компактной. Это снижает требования к ресурсам, но вызывает вопросы об оригинальности.

Компания ответила на эти обвинения в статье для журнала Nature. По мнению её специалистов, дистилляция — не копирование, а способ сделать ИИ более доступным. Компактные модели проще внедрять и дешевле поддерживать, а значит, больше компаний и университетов могут работать с ИИ без миллиардных бюджетов.

Сравнение затрат на обучение моделей

Компания Модель Число ускорителей Тип чипов Стоимость обучения
OpenAI GPT (базовые версии) не раскрыто H100/A100 ~$100 млн
DeepSeek R1 512 H800 $294 тыс.
Anthropic Claude не раскрыто H100 десятки млн $
Google DeepMind Gemini тысячи TPU не раскрыто, но >$50 млн

Советы шаг за шагом: как снизить стоимость ИИ-проектов

  1. Используйте дистилляцию моделей: это позволяет обучать меньшие версии без потери ключевых возможностей.

  2. Подбирайте оптимальные ускорители: не всегда нужны самые дорогие чипы, как показал пример с H800.

  3. Разделяйте обучение на этапы: предварительная работа может проводиться на слабых ускорителях, а финальная — на более мощных.

  4. Сокращайте время тренировки за счёт оптимизации кода и использования библиотек вроде DeepSpeed или Megatron-LM.

  5. Рассматривайте аренду облачных ресурсов вместо покупки "железа", если проект не требует постоянной нагрузки.

Ошибка → Последствие → Альтернатива

  • Ошибка: опора исключительно на самые дорогие ускорители.
    Последствие: рост бюджета до сотен миллионов долларов.
    Альтернатива: комбинировать более доступные чипы и алгоритмы оптимизации.

  • Ошибка: игнорирование методов дистилляции.
    Последствие: чрезмерные вычислительные расходы.
    Альтернатива: обучать компактные модели на основе больших.

  • Ошибка: отсутствие прозрачности в расходах.
    Последствие: потеря доверия инвесторов.
    Альтернатива: публиковать данные о конфигурациях и стоимости.

А что если…

Что будет, если подход DeepSeek станет массовым? Компании по всему миру смогут обучать свои модели за сотни тысяч долларов вместо десятков миллионов. Это приведёт к демократизации рынка: искусственный интеллект перестанет быть только инструментом крупных корпораций. Однако одновременно возрастёт конкуренция, и лидерам придётся искать новые способы удержать позиции.

Плюсы и минусы стратегии DeepSeek

Плюсы Минусы
Снижение затрат до рекордных уровней Обвинения в использовании чужих идей
Возможность масштабирования ИИ Ограничения из-за слабых чипов H800
Демократизация технологий Давление со стороны США
Быстрое время обучения (80 часов) Риски утраты доверия на мировом рынке

FAQ

Как выбрать ускорители для обучения ИИ?
Если проект ограничен в бюджете, лучше начинать с H800 или A100. Для самых больших моделей необходимы H100 или TPU.

Сколько времени занимает обучение модели, подобной R1?
По словам DeepSeek, финальный этап занял 80 часов, что значительно меньше, чем месяцы у конкурентов.

Что лучше: дистилляция или обучение "с нуля"?
Для старта дистилляция дешевле и эффективнее, но для создания уникальной модели компании часто комбинируют оба подхода.

Мифы и правда

  • Миф: без H100 невозможно обучить современную модель.
    Правда: DeepSeek показала, что H800 тоже справляются.

  • Миф: дистилляция — это воровство.
    Правда: это признанная практика в ИИ, позволяющая удешевлять обучение.

  • Миф: дешёвое обучение означает низкое качество.
    Правда: эффективность модели определяется не только затратами, но и архитектурой.

3 интересных факта

• После релиза R1 акции Nvidia и других компаний упали из-за страха инвесторов перед новым конкурентом.
• DeepSeek использовала A100 только на подготовительном этапе, а основное обучение прошло на H800.
• Компания впервые публично признала владение A100 именно в статье для Nature.

Исторический контекст

  • 2023 год: Сэм Альтман сообщил, что обучение моделей OpenAI стоит ~$100 млн.

  • Январь 2025 года: релиз DeepSeek-R1, вызвавший резонанс на мировом рынке.

  • Июнь 2025 года: США заявили о подозрении в использовании H100 китайской компанией.

  • Сентябрь 2025 года: DeepSeek раскрыла детали о стоимости обучения и применении H800.

Подписывайтесь на NewsInfo.Ru

Читайте также

JerryRigEverything протестировал iPhone Air: тонкий корпус выдержал 97 кг нагрузки сегодня в 1:17

Сломать — не получится: блогер проверил iPhone Air на прочность, и вот что с ним случилось

JerryRigEverything протестировал сверхтонкий iPhone Air. Смартфон выдержал нагрузку до 97 кг и показал, что тонкость не означает хрупкость.

Читать полностью »
Business Insider разрешил журналистам использовать ИИ для черновиков статей — Status вчера в 17:37

Секретный автор в каждом тексте: как ИИ тихо поселился в новостях

Business Insider стал одним из первых крупных медиа, разрешивших журналистам официально использовать ИИ. Но как изменится доверие читателей?

Читать полностью »
The Verge: Microsoft с 3 октября повысит цены на все консоли Xbox вчера в 17:34

Вторая волна ценового апгрейда: Xbox ушёл в категорию "подумай трижды перед покупкой"

Microsoft второй раз за год поднимает цены на Xbox в США. Теперь лимитированная версия Galaxy Black стоит рекордные $800.

Читать полностью »
Новая компактная модель HRM из Сингапура обошла крупные ИИ-системы вчера в 14:50

Малыш бьёт великанов: крошечный ИИ из Сингапура обошёл GPT и Claude

Стартап из Сингапура представил компактный искусственный интеллект, который неожиданно обошёл мировых лидеров в тестах рассуждений.

Читать полностью »
Doom на КПК проработал более двух лет и вылетел из-за переполнения кода — эксперимент minki вчера в 12:16

Бессмертие отменяется: Doom сломался через 2,5 года, и это была магия старого кода

Энтузиаст проверил, сколько лет Doom способен работать без перерыва. Эксперимент длился 2,5 года и закончился предсказуемым, но впечатляющим результатом.

Читать полностью »
Huawei: система Atlas 950 с 8192 Ascend быстрее Nvidia NVL144 в 6,7 раза вчера в 10:16

Суперкомпьютер на китайский лад: Huawei собрала "армаду" из миллиона чипов

Huawei представила новые суперкомпьютеры и систему объединения чипов, способные конкурировать с Nvidia. Разбираем, что это значит для ИИ-рынка.

Читать полностью »
РКН предложил ограничить доступ к мессенджерам для SIM-карт в роуминге вчера в 10:16

В отпуск с блокировкой? Как роуминг может отключить вам мессенджер прямо на пляже

В Роскомнадзоре предложили новые ограничения для аккаунтов мессенджеров и звонков из-за рубежа. Разбираем, что это значит для пользователей.

Читать полностью »
Энтузиаст создал проект 486Tang: процессор уровня Intel 486SX-20 на FPGA Tang вчера в 6:11

Процессор из 90-х ожил в чипе размером с ноготь: как энтузиаст воскрешает 486-й

Миниатюрная FPGA-плата воспроизвела работу 486SX-20. Узнаем, как разработчику удалось обойти ограничения железа и повысить производительность на 35%.

Читать полностью »