Google внедрила в голосового ассистента Gemini Live новую систему, которая позволяет ИИ понимать не только смысл сказанных слов, но и настроение собеседника. Теперь приложение анализирует тембр, ритм и интонацию голоса, чтобы подстраивать стиль общения под эмоциональное состояние пользователя.

Новый уровень взаимодействия с искусственным интеллектом

Обновлённая версия Gemini Live построена на технологии Gemini 2.5 Flash Live API и получила название "нативный звук". Эта система меняет сам подход к диалогу между человеком и машиной. Если раньше ассистент просто обрабатывал команды, то теперь он способен учитывать эмоциональные оттенки речи. Например, спокойный голос побудит ИИ отвечать в более размеренном тоне, а взволнованная интонация — быстрее и увереннее.

По словам разработчиков, новая функция призвана сделать общение с ассистентом "человечнее" — чтобы взаимодействие походило не на разговор с программой, а на диалог с живым собеседником.

Распространение и совместимость

На первом этапе технология появляется на устройствах под управлением Android, включая смартфоны и планшеты разных производителей. Владельцы флагманской серии Pixel 10 уже начали получать обновление, а вскоре оно станет доступно и другим пользователям.

О сроках релиза для iOS пока не объявлено, однако Google намекает, что поддержка платформы может появиться в ближайшие недели.

Развёртывание функции проходит поэтапно, чтобы обеспечить стабильную работу и корректное распознавание интонаций на разных языках и акцентах.

Новые возможности настройки

Помимо анализа речи, Google добавила дополнительные опции для настройки голосового вывода Gemini. Теперь пользователь может:

изменять скорость речи ассистента — от медленного, почти спокойного тона до быстрого ритма. выбирать разные акценты для английского языка, что делает общение более привычным для носителей из разных регионов. настраивать все параметры в отдельном разделе меню приложения, где также доступны обновления и тестовые функции.

Эти улучшения дают больше свободы тем, кто активно использует голосовой ввод для управления устройствами или работы с ИИ-инструментами.

Ошибка → Последствие → Альтернатива

Ошибка: использовать ассистента в шумной среде или при плохом микрофоне.

Последствие: система может неправильно определить интонацию или контекст фразы.

Альтернатива: использовать наушники с шумоподавлением или внешний микрофон.

Ошибка: не обновлять приложение вовремя.

Последствие: часть новых функций, включая "нативный звук", будет недоступна.

Альтернатива: включить автоматическое обновление в Google Play.

Ошибка: чрезмерно повышать голос при обращении к ассистенту.

Последствие: ИИ может воспринять речь как сигнал тревоги и изменить стиль ответа.

Альтернатива: говорить спокойно — алгоритм лучше понимает эмоциональные нюансы.

А что если…

Если использовать Gemini Live для длительных разговоров, ИИ начнет адаптировать манеру общения под конкретного человека. Например, он может "запоминать" ритм речи, скорость и даже типичные паузы собеседника, чтобы делать ответы естественнее. Это особенно полезно для людей, использующих ассистента в работе, обучении или терапии.

FAQ

Как включить анализ тона голоса в Gemini Live?

Функция активируется автоматически после обновления приложения. Проверить можно в разделе "Настройки → Голосовые функции".

Можно ли отключить распознавание эмоций?

Да, в том же меню есть переключатель "Анализ тона", который позволяет полностью отключить эмоциональную адаптацию.

Будет ли функция работать на русском языке?

Пока основной фокус — на английском, но Google уже тестирует поддержку нескольких языков, включая русский, испанский и немецкий.

Мифы и правда

Миф: новая функция записывает и хранит эмоции пользователя.

Правда: система анализирует голос в реальном времени и не сохраняет аудиофайлы после завершения сессии.

Миф: "нативный звук" доступен только на смартфонах Pixel.

Правда: технология распространяется и на другие устройства Android, просто релиз происходит поэтапно.

Миф: ассистент теперь понимает сарказм и иронию.

Правда: он может уловить изменения интонации, но не всегда корректно интерпретирует сложные эмоциональные оттенки.

Интересные факты

• Разработка функции велась более двух лет и включала анализ 10 миллионов часов реальной речи.

• Прототип технологии впервые тестировался внутри Google Meet для улучшения качества видеозвонков.

• В будущем "нативный звук" может использоваться в системах поддержки клиентов и умных колонках.