Alibaba выстрелила в гонке ИИ: 80B-модель работает так, будто у неё всего 3B параметров

Alibaba снизила стоимость инференса ИИ почти в 10 раз с моделью Qwen3

Alibaba громко заявила о себе в гонке больших языковых моделей, представив Qwen3-Next-80B-A3B - решение, которое объединяет масштаб (80 млрд параметров) и рекордную эффективность. Новинка удивляет тем, что при генерации текста активирует всего около 3 млрд параметров на токен. Это снижает стоимость обучения и инференса почти в 10 раз по сравнению с предыдущей Qwen3-32B, сохраняя при этом высокий уровень качества.

Ключевые особенности Qwen3-Next-80B-A3B

Разреженная архитектура: используется 512 экспертов, из которых задействуется только 10 и один общий. Такой Mixture-of-Experts позволяет экономно расходовать вычислительные ресурсы.
Комбинация технологий: гибрид Gated DeltaNet + Gated Attention обеспечивает баланс между точностью и скоростью.
Multi-Token Prediction: модель предсказывает сразу несколько слов вперёд и быстро их проверяет, что ускоряет генерацию текста.
Длинный контекст: обработка свыше 32 тыс. токенов без заметной деградации качества — одно из главных преимуществ в сравнении с конкурентами.

Сравнение с другими моделями

Модель	Кол-во параметров	Эффективность (активируемых параметров)	Ключевое преимущество
Qwen3-32B	32 млрд	все параметры	Базовый уровень
Qwen3-Next-80B-A3B	80 млрд	~3 млрд	Баланс цена/производительность
Qwen3-235B	235 млрд	все параметры	Максимальное качество
Gemini-2.5-Flash-Thinking	>100 млрд (оценка)	неизвестно	Сильные рассуждения, но дороже

По тестам, новая модель вплотную приблизилась к качеству Qwen3-235B, а в ряде задач рассуждения специализированная версия Qwen3-Next-80B-A3B-Thinking даже превзошла Google Gemini-2.5-Flash-Thinking.

Практическая значимость

Для бизнеса и исследователей это означает:

возможность запускать проекты, где важен сверхдлинный контекст (анализ документов, кода, научных текстов);
снижение затрат на эксплуатацию больших моделей;
более доступный вход в использование ИИ промышленного уровня.

Плюсы и минусы

Плюсы	Минусы
10-кратное снижение стоимости работы	Новая архитектура ещё требует "обкатки"
Поддержка длинного контекста	Пока меньше экосистемных инструментов, чем у OpenAI или Google
Быстрая генерация текста (multi-token prediction)	Высокая сложность настройки
Версии под разные сценарии (Instruct, Thinking)	Доступность для массового рынка пока ограничена
Приближается к качеству топовых моделей	Возможно, недоступна в некоторых регионах

А что если…

Если подобные архитектуры приживутся, рынок больших моделей ждёт переход от "всегда активных гигантов" к умным разреженным системам, которые используют только нужные ресурсы. Это может резко удешевить ИИ и ускорить массовое внедрение в образование, аналитику и корпоративные сервисы.

Интересные факты

Qwen3-Next-80B-A3B активирует всего 3,7% параметров на токен.
Версия Instruct почти догнала 235B по качеству инструкционных задач.
Модификация Thinking стала первой в истории Qwen-моделей, которая превзошла Google Gemini в тестах на рассуждение.

Подписывайтесь на NewsInfo.Ru