ИИ слишком умный? Google выяснила, что нейросети тратят тысячи токенов зря

Учёные Google показали, что модели ИИ переоценивают сложность задач

Команда Google Research представила работу, которая может изменить подход к обучению и использованию больших языковых моделей. Учёные выяснили, что современные ИИ с поддержкой режима длинных рассуждений (long reasoning) часто переоценивают сложность задачи и выполняют в 5-20 раз больше шагов, чем требуется для получения правильного ответа. При этом точность почти не повышается, а вычислительные ресурсы расходуются впустую.

Когда умный ИИ слишком старается

В последние годы разработчики активно внедряют в модели так называемые расширенные рассуждения - возможность анализировать задачу пошагово, разбивая её на логические "цепочки мыслей". Это действительно помогает при сложных вычислениях, программировании или решении логических задач. Однако исследование Google показало, что для простых запросов такие режимы становятся неэффективными: ИИ просто "перемудряет".

В среднем модели, участвовавшие в эксперименте, выполняли на 500-2000% больше операций, чем нужно, но улучшение точности не превышало 2-3%.

"Модели начинают проверять сами себя снова и снова, как будто не доверяют собственному выводу", — отмечают авторы исследования.

TRACE: как Google анализировала мысли ИИ

Чтобы изучить поведение моделей, Google создала специальный инструмент под названием TRACE (Tracking Reasoning Chains Effectively). Он разбивает длинные ответы нейросети на отдельные "под-мысли" и строит граф рассуждений - визуальную схему, показывающую, как модель переходит от одной идеи к другой.

Этот метод позволил выделить два типичных шаблона "избыточного мышления":

Тип "исследователь” - модель находит верный ответ рано, но не останавливается и продолжает искать альтернативы, создавая лишние ветви рассуждений.
Тип "поздняя посадка” - модель верно решает задачу с первых шагов, но потом уходит в длительный цикл самопроверок, перепроверяя собственные выводы и тем самым тратя ресурсы.

На визуализациях TRACE эти типы легко отличить: у первой модели дерево рассуждений расходится во все стороны, у второй — одно направление повторяется десятки раз.

Простые сигналы экономят до 60% токенов

Учёные протестировали разные способы оптимизации и выяснили, что даже простые "стоп-сигналы" способны значительно сократить избыточные вычисления.

Например, если модель останавливать после нескольких подряд самопроверок или при повторении одного и того же вывода, длина ответа сокращается на 40-60%. При этом точность практически не страдает.

Для пользователей это означает две вещи:
• быстрее получаемые ответы;
• меньшие расходы токенов при работе по API.

Иными словами, разумное ограничение глубины рассуждений делает ИИ не только быстрее, но и дешевле.

Какие модели проверяли

Исследование проводилось на открытых моделях семейства Qwen3 и DeepSeek R1, которые часто используются в академической среде для тестирования гипотез и алгоритмов интерпретации вывода. Эти системы демонстрируют схожие поведенческие паттерны с коммерческими моделями вроде GPT и Claude, что позволяет экстраполировать результаты на более широкий рынок.

"Поведение "поздней посадки” встречается даже в продвинутых моделях — они слишком осторожны, словно боятся ошибиться", — говорится в отчёте Google Research.

Параллели с OpenAI

Google — не единственная компания, заметившая "переусердствование" ИИ. Ранее специалисты OpenAI пришли к похожему выводу. В обновлении ChatGPT пользователи получили возможность выбирать режим рассуждения, который напрямую влияет на глубину анализа и потребление ресурсов.

Так, режим "быстрых ответов" ограничивает количество внутренних шагов, а более "глубокий" — оставляет системе пространство для сложных вычислений, но требует больше токенов.

Компания	Инструмент	Метод сокращения избыточных рассуждений	Эффект
Google	TRACE	Визуализация и автоматическое обрезание самопроверок	-40-60% токенов
OpenAI	ChatGPT Modes	Переключение глубины анализа вручную	Настраиваемый баланс точности и скорости
Anthropic	Claude Reasoner	Контроль длины цепочек рассуждений	Ускорение отклика при простых задачах

Почему это важно

В эпоху, когда стоимость вычислений растёт, а использование ИИ в корпоративных решениях требует масштабных мощностей, каждая оптимизация имеет значение. Сокращение длины reasoning-процессов без потери качества снижает не только финансовые затраты, но и углеродный след дата-центров, что делает разработку ИИ более экологичной.

Кроме того, TRACE может помочь разработчикам понять, как именно "думают” их модели - шаг к более прозрачному и объяснимому искусственному интеллекту.

Ошибка → Последствие → Альтернатива

Ошибка: модели бесконечно проверяют свои собственные рассуждения.
Последствие: перерасход вычислений, задержка ответов, рост стоимости API.
Альтернатива: внедрение механизмов "ранней остановки" и адаптивных лимитов reasoning-процессов.

А что если позволить ИИ думать дольше?

Интересно, что исследование не призывает полностью ограничивать рассуждения. В некоторых сценариях — например, при решении сложных логических задач, программировании или анализе данных — длинные рассуждения повышают точность.

Однако Google предлагает адаптивный подход: модель должна сама определять, насколько сложна задача, и выбирать соответствующую глубину анализа. Это может стать новым направлением развития — динамические рассуждения, где ИИ экономит ресурсы, не теряя эффективности.

Плюсы и минусы сокращения reasoning-процессов

Плюсы	Минусы
Быстрее ответы	Риск недообдуманных решений
Меньше токенов и расходов	Потеря гибкости в сложных задачах
Снижение нагрузки на дата-центры	Необходимость адаптивного управления
Более понятная структура рассуждений	Возможность "обрезать" важные шаги

3 интересных факта

TRACE визуализирует рассуждения в виде интерактивных графов, где каждый узел — это отдельная "мысль" модели.
В 60% случаев модели тратят ресурсы на повторение уже найденного решения.
Google планирует внедрить элементы TRACE в инструменты для разработчиков Gemini, чтобы помогать оптимизировать запросы.

FAQ

— Что такое TRACE?
Это инструмент от Google Research для анализа цепочек рассуждений ИИ и выявления лишних шагов.

— Насколько можно сократить работу модели без потери качества?
По данным исследования, на 40-60% токенов при сохранении точности ответа.

— Какие модели участвовали в тестах?
Открытые ИИ-системы Qwen3 и DeepSeek R1, популярные в исследовательской среде.

— Что общего у подходов Google и OpenAI?
Обе компании внедряют адаптивное управление глубиной рассуждений, чтобы снизить затраты.

— Можно ли использовать TRACE для коммерческих моделей?
Пока инструмент тестируется в научных целях, но в будущем Google может встроить его в корпоративные решения.

Мифы и правда

• Миф: чем больше модель "думает", тем умнее ответ.
Правда: после определённого порога рассуждения становятся избыточными.

• Миф: сокращение reasoning ухудшит качество.
Правда: при простых задачах это почти не влияет на точность.

• Миф: TRACE предназначен для отслеживания пользователей.
Правда: инструмент анализирует только внутренние процессы модели, а не пользовательские данные.

Подписывайтесь на NewsInfo.Ru