Машина говорит по-человечески: люди больше не слышат разницы

Исследователи из Лондона: 58% искусственных голосов приняли за настоящие

Идея того, что искусственный голос можно спутать с настоящим, ещё недавно казалась фантастикой. Мы привыкли к ровной интонации и немного "пластмассовому" звучанию Siri, Alexa и других голосовых помощников. Но теперь разница между машиной и человеком стала почти неуловимой. Исследователи из Лондонского университета королевы Марии доказали: обычный слушатель уже не способен надёжно отличить настоящий голос от его искусственной копии.

Когда искусственный голос звучит как настоящий

Учёные опубликовали результаты в журнале PLoS One 24 сентября. Они предложили добровольцам прослушать 80 голосов — половина из них принадлежала реальным людям, а другая была создана искусственным интеллектом. В задачу участников входило определить, какие записи настоящие.

Выяснилось, что 41% голосов, сгенерированных ИИ с нуля, ошибочно приняли за человеческие. Но куда более интересным оказался результат голосовых клонов — моделей, обученных на реальных записях. 58% таких образцов слушатели посчитали настоящими. Для сравнения: 62% реальных голосов были правильно распознаны как человеческие. Разрыв оказался настолько мал, что статистически люди уже не способны уверенно различать оригинал и имитацию.

"Эти голоса не совсем похожи на настоящие человеческие голоса, но это был лишь вопрос времени, когда технологии искусственного интеллекта начнут воспроизводить реалистичную речь, звучащую по-человечески", — заявила старший преподаватель психологии Надин Лаван.

Как создают клон голоса

Исследователи использовали простое коммерческое программное обеспечение. Для обучения каждой модели понадобилось всего четыре минуты записанной речи.

"Процесс требовал минимального опыта, всего нескольких минут записи голоса и практически никаких денег", — заявил Наван.

Полученные результаты показали, насколько доступными стали инструменты для синтеза речи. Сегодня для клонирования голоса не нужен профессиональный студийный микрофон или мощный сервер — достаточно ноутбука и стандартного облачного сервиса, вроде Amazon Polly, ElevenLabs или Microsoft Azure Voice.

Почему это опасно

Подобные технологии уже становятся инструментом мошенников. Так, в июле американку Шэрон Брайтвелл обманом заставили перевести 15 тысяч долларов. Ей позвонили от имени дочери: на другом конце линии женщина слышала плач и просьбы о помощи. Голос звучал настолько убедительно, что Брайтвелл не усомнилась в его подлинности.

"Никто не сможет убедить меня, что это была не она", — сказала Шэрон Брайтвелл.

Подобные схемы мошенничества стали появляться всё чаще. Преступники используют голосовые дипфейки для обмана родственников, а также для обхода голосовых систем безопасности банков.

Сравнение: человеческий голос и ИИ

Параметр	Реальный голос	Голос, сгенерированный ИИ
Источник	Живой человек	Нейросеть, обученная на записях
Эмоциональная окраска	Естественная, вариативная	Становится всё реалистичнее
Распознаваемость	62%	58% (клонированные)
Стоимость создания	Зависит от диктора и студии	Практически нулевая
Риски	Минимальные	Возможность подделки и обмана

Советы шаг за шагом: как защитить свой голос

Не публикуйте длинные голосовые записи в открытом доступе — даже короткий фрагмент может стать материалом для клонирования.
Используйте двухфакторную аутентификацию: не полагайтесь на голосовые пароли.
Будьте внимательны к неожиданным звонкам. Если кто-то просит деньги, прервите разговор и свяжитесь с человеком через другой канал.
Проверяйте источники аудио - политические заявления, интервью и ролики в сети могут быть сфальсифицированы.
Применяйте сервисы обнаружения дипфейков, такие как Reality Defender или Deepware Scanner.

Ошибка → Последствие → Альтернатива

Ошибка: использовать голосовые пароли в банке.
Последствие: мошенник может обойти защиту, используя ИИ-клон.
Альтернатива: выбрать биометрическую идентификацию по отпечатку пальца или Face ID.
Ошибка: оставлять автоответчик с личным голосом.
Последствие: запись может быть использована для генерации дипфейка.
Альтернатива: заменить сообщение на нейтральный синтетический вариант.
Ошибка: доверять каждому аудио в интернете.
Последствие: риск стать жертвой фейковых новостей.
Альтернатива: сверять информацию с официальными источниками.

А что если голосовые клоны принесут пользу?

Развитие технологий не обязательно несёт только угрозы. Голосовые модели уже применяются в медицине, образовании и сфере доступности. С их помощью люди, утратившие голос, могут вернуть себе возможность говорить, а обучающие платформы — адаптировать речь под разные языки и акценты.

Компании, создающие аудиоконтент, используют ИИ, чтобы ускорить озвучку видео или игр. Синтетические голоса заменяют дикторов в навигационных системах, голосовых ассистентах, аудиокнигах и даже в виртуальных турах.

Плюсы и минусы технологий голосового ИИ

Плюсы	Минусы
Улучшение доступности для людей с ограничениями речи	Возможность злоупотреблений и обмана
Снижение затрат на озвучку	Утрата доверия к аудиоинформации
Персонализация интерфейсов	Риск нарушения авторских прав
Быстрая адаптация под разные языки	Использование в политических манипуляциях
Возможность восстановления голоса после болезни	Сложность регулирования на законодательном уровне

FAQ

Как распознать поддельный голос?
Слушайте наушниками: у дипфейков часто неестественные паузы и слишком чистый тембр без дыхания.

Можно ли клонировать любой голос?
Да, достаточно нескольких минут аудиозаписи. Чем больше данных, тем выше реализм.

Сколько стоит создание голосового дипфейка?
Коммерческие сервисы позволяют сделать это бесплатно или за символическую сумму.

Что лучше — синтетический или настоящий голос в навигаторе?
Настоящий звучит теплее, но ИИ даёт больше вариантов озвучки и языков.

Мифы и правда

Миф: отличить голос ИИ легко.
Правда: слушатели ошибаются почти в половине случаев.
Миф: клонирование голоса требует спецоборудования.
Правда: это можно сделать на обычном компьютере.
Миф: синтетическая речь — это всегда зло.
Правда: она уже помогает в медицине и образовании.

Исторический контекст

Ещё в 2011 году голосовые помощники вроде Siri были скорее игрушкой, чем инструментом. Затем появились Amazon Alexa и Google Assistant, которые обучались миллионам голосовых команд. К 2020-м синтезаторы речи научились копировать эмоции и тембр. А в 2025 году человеческий слух официально проиграл битву искусственному интеллекту.

3 интересных факта

• Первые синтетические голоса появились ещё в 1960-х — звучали как роботы из фантастики.
• Современные ИИ-модели могут воспроизводить дыхание и интонацию человека.
• Уже существуют сервисы, позволяющие "озвучить" текст голосом знаменитости за несколько секунд.

Подписывайтесь на NewsInfo.Ru