Искусственный интеллект
Искусственный интеллект
Олег Белов Опубликована сегодня в 6:33

ИИ слишком умный? Google выяснила, что нейросети тратят тысячи токенов зря

Учёные Google показали, что модели ИИ переоценивают сложность задач

Команда Google Research представила работу, которая может изменить подход к обучению и использованию больших языковых моделей. Учёные выяснили, что современные ИИ с поддержкой режима длинных рассуждений (long reasoning) часто переоценивают сложность задачи и выполняют в 5-20 раз больше шагов, чем требуется для получения правильного ответа. При этом точность почти не повышается, а вычислительные ресурсы расходуются впустую.

Когда умный ИИ слишком старается

В последние годы разработчики активно внедряют в модели так называемые расширенные рассуждения - возможность анализировать задачу пошагово, разбивая её на логические "цепочки мыслей". Это действительно помогает при сложных вычислениях, программировании или решении логических задач. Однако исследование Google показало, что для простых запросов такие режимы становятся неэффективными: ИИ просто "перемудряет".

В среднем модели, участвовавшие в эксперименте, выполняли на 500-2000% больше операций, чем нужно, но улучшение точности не превышало 2-3%.

"Модели начинают проверять сами себя снова и снова, как будто не доверяют собственному выводу", — отмечают авторы исследования.

TRACE: как Google анализировала мысли ИИ

Чтобы изучить поведение моделей, Google создала специальный инструмент под названием TRACE (Tracking Reasoning Chains Effectively). Он разбивает длинные ответы нейросети на отдельные "под-мысли" и строит граф рассуждений - визуальную схему, показывающую, как модель переходит от одной идеи к другой.

Этот метод позволил выделить два типичных шаблона "избыточного мышления":

  1. Тип "исследователь” - модель находит верный ответ рано, но не останавливается и продолжает искать альтернативы, создавая лишние ветви рассуждений.

  2. Тип "поздняя посадка” - модель верно решает задачу с первых шагов, но потом уходит в длительный цикл самопроверок, перепроверяя собственные выводы и тем самым тратя ресурсы.

На визуализациях TRACE эти типы легко отличить: у первой модели дерево рассуждений расходится во все стороны, у второй — одно направление повторяется десятки раз.

Простые сигналы экономят до 60% токенов

Учёные протестировали разные способы оптимизации и выяснили, что даже простые "стоп-сигналы" способны значительно сократить избыточные вычисления.

Например, если модель останавливать после нескольких подряд самопроверок или при повторении одного и того же вывода, длина ответа сокращается на 40-60%. При этом точность практически не страдает.

Для пользователей это означает две вещи:
быстрее получаемые ответы;
меньшие расходы токенов при работе по API.

Иными словами, разумное ограничение глубины рассуждений делает ИИ не только быстрее, но и дешевле.

Какие модели проверяли

Исследование проводилось на открытых моделях семейства Qwen3 и DeepSeek R1, которые часто используются в академической среде для тестирования гипотез и алгоритмов интерпретации вывода. Эти системы демонстрируют схожие поведенческие паттерны с коммерческими моделями вроде GPT и Claude, что позволяет экстраполировать результаты на более широкий рынок.

"Поведение "поздней посадки” встречается даже в продвинутых моделях — они слишком осторожны, словно боятся ошибиться", — говорится в отчёте Google Research.

Параллели с OpenAI

Google — не единственная компания, заметившая "переусердствование" ИИ. Ранее специалисты OpenAI пришли к похожему выводу. В обновлении ChatGPT пользователи получили возможность выбирать режим рассуждения, который напрямую влияет на глубину анализа и потребление ресурсов.

Так, режим "быстрых ответов" ограничивает количество внутренних шагов, а более "глубокий" — оставляет системе пространство для сложных вычислений, но требует больше токенов.

Компания Инструмент Метод сокращения избыточных рассуждений Эффект
Google TRACE Визуализация и автоматическое обрезание самопроверок -40-60% токенов
OpenAI ChatGPT Modes Переключение глубины анализа вручную Настраиваемый баланс точности и скорости
Anthropic Claude Reasoner Контроль длины цепочек рассуждений Ускорение отклика при простых задачах

Почему это важно

В эпоху, когда стоимость вычислений растёт, а использование ИИ в корпоративных решениях требует масштабных мощностей, каждая оптимизация имеет значение. Сокращение длины reasoning-процессов без потери качества снижает не только финансовые затраты, но и углеродный след дата-центров, что делает разработку ИИ более экологичной.

Кроме того, TRACE может помочь разработчикам понять, как именно "думают” их модели - шаг к более прозрачному и объяснимому искусственному интеллекту.

Ошибка → Последствие → Альтернатива

  • Ошибка: модели бесконечно проверяют свои собственные рассуждения.

  • Последствие: перерасход вычислений, задержка ответов, рост стоимости API.

  • Альтернатива: внедрение механизмов "ранней остановки" и адаптивных лимитов reasoning-процессов.

А что если позволить ИИ думать дольше?

Интересно, что исследование не призывает полностью ограничивать рассуждения. В некоторых сценариях — например, при решении сложных логических задач, программировании или анализе данных — длинные рассуждения повышают точность.

Однако Google предлагает адаптивный подход: модель должна сама определять, насколько сложна задача, и выбирать соответствующую глубину анализа. Это может стать новым направлением развития — динамические рассуждения, где ИИ экономит ресурсы, не теряя эффективности.

Плюсы и минусы сокращения reasoning-процессов

Плюсы Минусы
Быстрее ответы Риск недообдуманных решений
Меньше токенов и расходов Потеря гибкости в сложных задачах
Снижение нагрузки на дата-центры Необходимость адаптивного управления
Более понятная структура рассуждений Возможность "обрезать" важные шаги

3 интересных факта

  1. TRACE визуализирует рассуждения в виде интерактивных графов, где каждый узел — это отдельная "мысль" модели.

  2. В 60% случаев модели тратят ресурсы на повторение уже найденного решения.

  3. Google планирует внедрить элементы TRACE в инструменты для разработчиков Gemini, чтобы помогать оптимизировать запросы.

FAQ

— Что такое TRACE?
Это инструмент от Google Research для анализа цепочек рассуждений ИИ и выявления лишних шагов.

— Насколько можно сократить работу модели без потери качества?
По данным исследования, на 40-60% токенов при сохранении точности ответа.

— Какие модели участвовали в тестах?
Открытые ИИ-системы Qwen3 и DeepSeek R1, популярные в исследовательской среде.

— Что общего у подходов Google и OpenAI?
Обе компании внедряют адаптивное управление глубиной рассуждений, чтобы снизить затраты.

— Можно ли использовать TRACE для коммерческих моделей?
Пока инструмент тестируется в научных целях, но в будущем Google может встроить его в корпоративные решения.

Мифы и правда

Миф: чем больше модель "думает", тем умнее ответ.
Правда: после определённого порога рассуждения становятся избыточными.

Миф: сокращение reasoning ухудшит качество.
Правда: при простых задачах это почти не влияет на точность.

Миф: TRACE предназначен для отслеживания пользователей.
Правда: инструмент анализирует только внутренние процессы модели, а не пользовательские данные.

Подписывайтесь на NewsInfo.Ru

Читайте также

Apple усилила экологическую стратегию, закупив 650 МВт чистой энергии сегодня в 17:17
Apple больше не зависит от нефти: как iPhone стал работать на ветре

Apple подписала крупнейшие европейские контракты на поставку зелёной энергии, усилив свои позиции в борьбе за климатическую нейтральность.

Читать полностью »
На клавиатуре обитает до 5000 бактерий на квадратный сантиметр сегодня в 16:54
Клавиатура страшнее унитаза: что на самом деле живёт под нашими пальцами

Даже на идеально чистом рабочем столе может скрываться источник инфекций. Почему клавиатура — одна из самых опасных зон офиса и как защититься.

Читать полностью »
Американский стартап Beta Technologies развивает сеть зарядных станций для авиации сегодня в 15:54
Самолёт без капли керосина: стартап из Вермонта готовится взлететь на $7 миллиардов

Электроавиационный стартап из Вермонта готовится к IPO на сотни миллионов долларов. Удастся ли Beta Technologies взлететь выше конкурентов?

Читать полностью »
Продажи бюджетных планшетов в России выросли на 36% в третьем квартале 2025 года — данные МТС сегодня в 14:04
Планшетный бум: как доступные модели захватывают российские дома

Бюджетные планшеты в России неожиданно стали главным трендом 2025 года. Почему покупатели массово выбирают устройства до 15 тысяч рублей — разбираемся подробно.

Читать полностью »
Китай опередил Запад по уровню автоматизации промышленности — The Telegraph сегодня в 13:37
Добро пожаловать в будущее, сделанное в Китае: почему Запад отстаёт на десятилетие

Китай перестаёт быть просто «фабрикой мира» — автоматизация, искусственный интеллект и собственные технологии делают его новым центром глобальной промышленности.

Читать полностью »
Во Владивостоке зарегистрирована северокорейская компания сегодня в 12:28
"Красная звезда" села во Владивостоке: КНДР тайно выходит на российский IT-рынок

Во Владивостоке зарегистрировали северокорейскую компанию, связанную с разработчиком Red Star OS. Эксперты считают, что под видом исследований КНДР может развивать IT-партнёрство с Россией.

Читать полностью »
Исследование OpenAI, Anthropic и DeepMind показало уязвимость защит языковых моделей сегодня в 11:18
98% защиты — это иллюзия: ИИ легко обманывается, если знать, как подойти

Команда OpenAI, Anthropic, DeepMind и Гарварда показала: 12 популярных защит ИИ легко обходятся адаптирующимися атаками. Решение — многослойная безопасность и постоянные стресс-тесты.

Читать полностью »
У iPhone 17 Pro и Pro Max оранжевая рамка становится розовой — жалобы пользователей сегодня в 10:17
Сюрприз от солнца: iPhone 17 Pro выгорает до неузнаваемости — и это не баг

Оранжевые iPhone 17 Pro начали розоветь под солнцем. Пользователи спорят: это дефект покрытия или редкий эффект, который со временем сделает смартфон коллекционной редкостью.

Читать полностью »