Google
Google
Олег Белов Опубликована сегодня в 7:18

Конец "тормозов" у чат-ботов? Google придумала гибрид, который работает на максимуме

Speculative Cascades делает работу языковых моделей быстрее и дешевле — Google

Google Research представила технологию Speculative Cascades - новый гибридный метод ускорения генерации текста, который объединяет каскады и спекулятивную декодировку. Это решение может серьёзно повлиять на рынок LLM, сделав работу нейросетей одновременно быстрее, дешевле и надёжнее.

Проблема больших моделей

Современные LLM лежат в основе чат-ботов, поисковых систем и ассистентов, но их главный минус — огромные вычислительные затраты. Нужно искать компромисс: скорость и экономичность против точности и глубины.

  • Каскады: сначала отвечает маленькая модель, а если не справляется — подключается большая. Минус — качество сильно "скачет" от задачи к задаче.

  • Спекулятивная декодировка: маленькая модель предсказывает сразу несколько токенов, а большая проверяет. Скорость выше, но нагрузка на крупную модель остаётся высокой.

Как работает Speculative Cascades

Google объединяет эти подходы:

  • иногда маленькая модель сама завершает ответ;

  • иногда она создаёт черновик, а большая модель проверяет и дорабатывает;

  • проверка выполняется не только по крупной модели, но и по комбинированному распределению двух систем с "правилом отсрочки", что снижает избыточные вычисления.

Итог — меньше ресурсов, больше скорости и качество на уровне больших LLM.

Результаты тестов

На моделях Gemma и T5 новый метод показал:

  • выше скорость, чем у спекулятивной декодировки;

  • более низкую стоимость, чем у каскадов;

  • рост точности в задачах математического рассуждения и обобщения.

Особенно заметен прирост в "трудных" сценариях — где стандартные подходы давали либо замедление, либо падение качества.

Преимущества Speculative Cascades

  • Экономия ресурсов: меньше нагрузки на GPU и энергию.

  • Гибкость: можно настраивать баланс между скоростью и качеством под конкретное приложение.

  • Масштабируемость: подходит и для быстрых чат-ботов, и для аналитических систем.

  • Повышение точности: особенно в задачах с длинными рассуждениями.

Сравнение подходов

Метод Скорость Стоимость Качество Особенности
Каскады Средняя Дешевле, но нестабильно Колеблется Малая модель решает простые задачи
Спекулятивная декодировка Быстрее Дороже Стабильно Большая модель подтверждает каждый шаг
Speculative Cascades Самая высокая Оптимальная Стабильное, часто выше Объединяет два подхода

А что если…

Google интегрирует Speculative Cascades в линейку Gemini? Тогда пользователи и компании по всему миру получат доступ к ИИ-сервисам:

  • быстрее работающим чат-ботам,

  • дешевым корпоративным решениям,

  • более экологичным системам с меньшим энергопотреблением.

Интересные факты

  1. Speculative Cascades — первый метод, где "маленькая модель" может быть одновременно фильтром и ускорителем.

  2. В математических задачах точность выросла не только относительно каскадов, но и относительно стандартной декодировки.

  3. Эта технология может снизить стоимость запуска LLM-сервисов на десятки процентов, что критично для масштабного внедрения.

Подписывайтесь на NewsInfo.Ru

Читайте также

Microsoft снижает зависимость от OpenAI, привлекая Anthropic к Microsoft 365 сегодня в 8:13

OpenAI строит чипы и конкурентов LinkedIn — Microsoft ищет запасной выход

Microsoft ведёт переговоры с Anthropic о внедрении её моделей в Microsoft 365. Это снизит зависимость от OpenAI и усилит конкуренцию на рынке ИИ.

Читать полностью »
На Fiverr и LinkedIn появились специалисты по исправлению вайб-кода вчера в 23:27

MVP за ночь, баги навсегда: кто и зачем нанимает фиксеров вайб-кода

Вайб-кодинг породил новую профессию — специалистов, которые исправляют код, сгенерированный ИИ. Спрос на такие услуги растёт по всему миру.

Читать полностью »
Microsoft заявила, что перепродажа лицензий Windows и Office незаконна — дело уже в суде вчера в 22:26

От скидок к подпискам: как Microsoft толкает компании в объятия 365 и Azure

Судебный спор Microsoft и ValueLicensing может изменить судьбу рынка подержанных лицензий в Европе и определить будущее модели подписок.

Читать полностью »
Эксперты: новый инструмент Villager называют вчера в 21:18

Бесплатный инструмент из PyPI превращает даже новичка в хакера за пару кликов

Новый инструмент Villager стремительно набирает популярность, но его связь с подозрительной китайской компанией вызывает серьёзные вопросы у экспертов.

Читать полностью »
Mechanism представила универсальное крепление для гаджетов в самолёте вчера в 20:18

Столики можно закрыть: нашли способ играть и читать в полёте без лишних усилий

Mechanism выпустила крепление для телефонов, консолей и e-readers, которое делает перелёты комфортнее. Устройство стоит всего $19.

Читать полностью »
Японские физики экспериментально реализовали запутанное измерение трёхфотонных состояний W вчера в 19:18

Три фотона, одна магия: как учёные открыли дверь в квантовую телепортацию

Учёные из Японии впервые провели запутанное измерение состояния W. Почему это открытие так важно для будущего квантовых технологий?

Читать полностью »
NASA запретило гражданам Китая доступ к объектам, сетям и Zoom-звонкам вчера в 18:17

Китайцев отрезали даже от Zoom: как NASA пытается вернуться на Луну быстрее КНР

НАСА запретило гражданам Китая доступ к своим объектам и сетям. Почему агентство пошло на этот шаг и как это связано с лунной гонкой?

Читать полностью »
Демис Хассабис: современные ИИ как аспиранты, но ошибаются в школьной математике вчера в 17:18

PhD-интеллект — миф: глава DeepMind объяснил, чего не умеют современные ИИ

Демис Хассабис из DeepMind объяснил, почему современные чат-боты ещё далеки от AGI и что станет ключом к созданию настоящего универсального интеллекта.

Читать полностью »