Alibaba Group Holding Limited
Alibaba Group Holding Limited
Олег Белов Опубликована сегодня в 4:46

Облако, которое само учится распределять нагрузку: Alibaba запускает мозг для дата-центров

Новая технология Aegaeon от Alibaba Cloud позволяет запускать до семи моделей на одном GPU

Компания Alibaba Cloud представила вычислительную систему Aegaeon, способную радикально повысить эффективность использования графических ускорителей при работе с AI-моделями. Разработка уже получила статус одного из самых амбициозных инженерных решений в области облачных технологий, позволяя обслуживать в пять раз больше моделей на том же количестве GPU.

Проблема неравномерных нагрузок

Современные облачные инфраструктуры часто сталкиваются с тем, что загрузка видеокарт распределяется крайне неравномерно. Несколько популярных моделей — например, Qwen или DeepSeek - постоянно находятся в работе, тогда как сотни менее востребованных остаются в режиме простоя, при этом продолжают занимать дорогостоящие вычислительные ресурсы.

Ранее одна видеокарта могла стабильно обслуживать максимум две-три модели. Всё остальное время ускорители простаивали, создавая неэффективность и финансовые потери. Именно эту задачу решает новая система Aegaeon.

Динамическое распределение GPU в реальном времени

Ключевая инновация Aegaeon заключается в динамическом управлении ресурсами. Система анализирует загрузку серверов и в реальном времени перераспределяет GPU между моделями, включая переключение прямо во время выполнения задач. Такой подход исключает простои и обеспечивает равномерную загрузку вычислительных мощностей.

"С Aegaeon мы впервые добились баланса между скоростью отклика и эффективностью распределения GPU", — отметил инженер Alibaba Cloud Чжан Вэй.

В результате один графический процессор теперь способен одновременно обслуживать до семи AI-моделей, а время задержек при переключении задач сократилось на 97%. Это особенно важно для облачных платформ, где время отклика напрямую влияет на пользовательский опыт.

Где уже используется Aegaeon

Пилотное внедрение новой системы прошло на маркетплейсе Bailian, принадлежащем Alibaba Cloud. На этой платформе размещаются сотни моделей сторонних разработчиков, включая языковые, визуальные и мультимодальные системы. Именно такой формат и стал идеальным полигоном для Aegaeon: постоянное перераспределение нагрузки между десятками тысяч запросов делает технологию особенно востребованной.

Кроме того, компания заявляет, что Aegaeon совместим с существующими фреймворками и может масштабироваться без необходимости менять архитектуру дата-центров.

Сравнение: Aegaeon против традиционных систем

Параметр Традиционные облачные решения Aegaeon
Количество моделей на 1 GPU 2-3 до 7
Задержка при переключении 100% (базовое значение) -97%
Эффективность использования GPU ~35% до 90%
Масштабируемость Ограниченная Горизонтальная и вертикальная
Энергопотребление Высокое Снижено на 40-50%

Как работает система: пошаговый принцип

  1. Мониторинг нагрузки. Aegaeon в режиме реального времени отслеживает активность всех моделей в облаке.

  2. Анализ приоритетов. Система оценивает, какие из моделей нуждаются в непрерывном доступе к GPU, а какие могут работать в пакетном режиме.

  3. Мгновенное переключение. На основе анализа Aegaeon распределяет ресурсы GPU, используя технологию горячего контекстного переключения.

  4. Оптимизация на уровне драйвера. Алгоритм снижает задержки между задачами и предотвращает конфликт доступа к памяти GPU.

  5. Самообучение. Система корректирует собственные стратегии на основе накопленных данных, адаптируясь к изменению нагрузки.

Ошибка → Последствие → Альтернатива

  • Ошибка: закрепление каждого GPU за одной моделью.
    Последствие: простаивание вычислительных блоков при низком спросе.
    Альтернатива: динамическое распределение GPU мощностей через Aegaeon.

  • Ошибка: масштабирование инфраструктуры через закупку новых ускорителей.
    Последствие: рост расходов и зависимость от поставок Nvidia.
    Альтернатива: оптимизация загрузки существующих GPU, снижая потребность в их количестве в 4-5 раз.

  • Ошибка: использование универсальных планировщиков без приоритизации AI-задач.
    Последствие: рост задержек и снижение качества отклика.
    Альтернатива: специализированная система планирования, адаптированная под работу нейросетей.

А что если…

А что если через несколько лет компании перестанут наращивать парки GPU и вместо этого будут просто эффективнее использовать существующие ресурсы? Aegaeon может стать именно тем решением, которое изменит экономику облачных вычислений, позволяя создавать дешёвый и устойчивый AI даже при дефиците аппаратуры.

Плюсы и минусы Aegaeon

Плюсы Минусы
Сокращает потребность в GPU до 5 раз Сложная настройка на этапе внедрения
Уменьшает задержки при переключении задач Требует поддержки со стороны инфраструктуры
Увеличивает эффективность использования ресурсов Высокие требования к мониторингу и телеметрии
Масштабируется без аппаратных изменений Пока внедрена только в экосистеме Alibaba

FAQ

Как Aegaeon влияет на энергопотребление?
Система позволяет снизить энергозатраты дата-центров на 40-50%, поскольку GPU не простаивают и работают в оптимальных режимах.

Можно ли использовать Aegaeon вне Alibaba Cloud?
Технология пока доступна только в облачной экосистеме компании, но в будущем возможна коммерческая лицензия для партнёров.

Поддерживает ли Aegaeon разные фреймворки — PyTorch, TensorFlow, JAX?
Да, система совместима с основными AI-фреймворками через адаптационные слои планировщика.

Каковы реальные результаты внедрения на Bailian?
По данным Alibaba, производительность выросла в 4,8 раза, а задержки при генерации ответов уменьшились почти до нуля.

Мифы и правда

  • Миф: увеличение количества моделей на GPU обязательно снижает скорость работы.
    Правда: Aegaeon применяет контекстное переключение, исключающее потерю производительности.

  • Миф: только новые видеокарты способны эффективно работать с множеством моделей.
    Правда: система оптимизирует даже старые GPU, повышая их коэффициент загрузки.

  • Миф: подобные технологии доступны только гиперскейлерам.
    Правда: Aegaeon может стать основой для более демократичных облаков, доступных разработчикам по всему миру.

3 интересных факта

  1. Название Aegaeon отсылает к греческому титаниду, символу силы и многообразия — что отражает идею многозадачности GPU.

  2. При тестировании система обрабатывала до 60 000 AI-запросов в секунду без потери качества генерации.

  3. Разработка Aegaeon заняла менее двух лет и велась совместно с исследовательским институтом DAMO Academy.

Подписывайтесь на NewsInfo.Ru

Читайте также

В России наблюдаются массовые сбои в работе FaceTime — iPhones.ru сегодня в 7:37
FaceTime в России рвёт связь: что это, сбой, случайность или неофициальная блокировка

Пользователи из России сообщают о сбоях в работе FaceTime: звонки не проходят, обрываются или идут с большой задержкой. Роскомнадзор отрицает блокировку сервиса.

Читать полностью »
Роскомнадзор: решение об отмене блокировки звонков в Telegram и WhatsApp не принималось сегодня в 6:44
Звонки в мессенджерах снова работают — но не у всех и не надолго: что происходит

Роскомнадзор заявил, что не принимал решений об отмене ограничений на звонки в Telegram и WhatsApp, несмотря на сообщения пользователей о временном восстановлении связи.

Читать полностью »
Google интегрировала Gemini с картами Google Maps — доступ к 250 млн локаций по миру сегодня в 5:56
ИИ теперь знает, где вы и куда хотите: Google объединил Gemini с живыми картами мира

Gemini теперь понимает карту мира: новая интеграция с Google Maps позволяет ИИ использовать реальные данные о миллионах локаций и строить маршруты в реальном времени.

Читать полностью »
Холдинг сегодня в 3:36
Российский сенсор, который не боится ни мороза, ни вибраций: ответ на импорт под 4K

Отечественная КМОП-матрица 4K от холдинга «Росэл» готова к серийному производству: энергоэффективная, надёжная и рассчитанная на экстремальные условия работы.

Читать полностью »
IBM представила CyberPal 2.0 — ИИ-модель для анализа кибератак и уязвимостей сегодня в 2:26
Меньше вес — больше толку: как компактный CyberPal обошёл гигантов LLM в киберразведке

IBM представила новую модель CyberPal 2.0 — компактный ИИ, который не просто анализирует атаки, а учится понимать их логику и предотвращать угрозы.

Читать полностью »
Новая версия Claude от Anthropic автоматизирует анализ omics и лабораторные протоколы сегодня в 1:16
Не заменяет учёного, но ускоряет всё вокруг: как Claude помогает лаборатории работать как часы

Anthropic представила Claude for Life Sciences — ИИ-ассистента для лабораторий с интеграциями Benchling, BioRender и 10x. Чем он полезен в реальных экспериментах?

Читать полностью »
Пользователи Eight Sleep пожаловались на передачу 16 ГБ телеметрии в облако AWS сегодня в 0:34
Матрасы сливают по 16 ГБ в облако: спите крепко, вас записывают

Пользователи умных матрасов Eight Sleep пожаловались, что устройства передают в облако AWS до 16 ГБ данных в месяц и перестают работать без интернета. Почему компания выбрала такую архитектуру?

Читать полностью »
Valve представила вчера в 23:27
Игровой календарь, который знает вас лучше друзей: новинка от Valve удивила геймеров

Steam тестирует «Персональный календарь» — новую систему рекомендаций, которая помогает отслеживать релизы и подбирать игры под вкусы пользователя.

Читать полностью »