Alibaba Group Holding Limited
Alibaba Group Holding Limited
© commons.wikimedia by МФН is licensed under Creative Commons Attribution-Share Alike 4.0 International
Технологии
Олег Белов Опубликована сегодня в 2:26

Alibaba выстрелила в гонке ИИ: 80B-модель работает так, будто у неё всего 3B параметров

Alibaba снизила стоимость инференса ИИ почти в 10 раз с моделью Qwen3

Alibaba громко заявила о себе в гонке больших языковых моделей, представив Qwen3-Next-80B-A3B - решение, которое объединяет масштаб (80 млрд параметров) и рекордную эффективность. Новинка удивляет тем, что при генерации текста активирует всего около 3 млрд параметров на токен. Это снижает стоимость обучения и инференса почти в 10 раз по сравнению с предыдущей Qwen3-32B, сохраняя при этом высокий уровень качества.

Ключевые особенности Qwen3-Next-80B-A3B

  • Разреженная архитектура: используется 512 экспертов, из которых задействуется только 10 и один общий. Такой Mixture-of-Experts позволяет экономно расходовать вычислительные ресурсы.

  • Комбинация технологий: гибрид Gated DeltaNet + Gated Attention обеспечивает баланс между точностью и скоростью.

  • Multi-Token Prediction: модель предсказывает сразу несколько слов вперёд и быстро их проверяет, что ускоряет генерацию текста.

  • Длинный контекст: обработка свыше 32 тыс. токенов без заметной деградации качества — одно из главных преимуществ в сравнении с конкурентами.

Сравнение с другими моделями

Модель Кол-во параметров Эффективность (активируемых параметров) Ключевое преимущество
Qwen3-32B 32 млрд все параметры Базовый уровень
Qwen3-Next-80B-A3B 80 млрд ~3 млрд Баланс цена/производительность
Qwen3-235B 235 млрд все параметры Максимальное качество
Gemini-2.5-Flash-Thinking >100 млрд (оценка) неизвестно Сильные рассуждения, но дороже

По тестам, новая модель вплотную приблизилась к качеству Qwen3-235B, а в ряде задач рассуждения специализированная версия Qwen3-Next-80B-A3B-Thinking даже превзошла Google Gemini-2.5-Flash-Thinking.

Практическая значимость

Для бизнеса и исследователей это означает:

  • возможность запускать проекты, где важен сверхдлинный контекст (анализ документов, кода, научных текстов);

  • снижение затрат на эксплуатацию больших моделей;

  • более доступный вход в использование ИИ промышленного уровня.

Плюсы и минусы

Плюсы Минусы
10-кратное снижение стоимости работы Новая архитектура ещё требует "обкатки"
Поддержка длинного контекста Пока меньше экосистемных инструментов, чем у OpenAI или Google
Быстрая генерация текста (multi-token prediction) Высокая сложность настройки
Версии под разные сценарии (Instruct, Thinking) Доступность для массового рынка пока ограничена
Приближается к качеству топовых моделей Возможно, недоступна в некоторых регионах

А что если…

Если подобные архитектуры приживутся, рынок больших моделей ждёт переход от "всегда активных гигантов" к умным разреженным системам, которые используют только нужные ресурсы. Это может резко удешевить ИИ и ускорить массовое внедрение в образование, аналитику и корпоративные сервисы.

Интересные факты

  1. Qwen3-Next-80B-A3B активирует всего 3,7% параметров на токен.

  2. Версия Instruct почти догнала 235B по качеству инструкционных задач.

  3. Модификация Thinking стала первой в истории Qwen-моделей, которая превзошла Google Gemini в тестах на рассуждение.

