Дата-центр в неоновом свете
Дата-центр в неоновом свете
Олег Белов Опубликована 04.10.2025 в 7:17

Данные кончились, а жажда растёт: что теперь будет питать искусственный интеллект

Goldman Sachs: интернет-данные для обучения ИИ практически исчерпаны

Когда речь заходит о развитии искусственного интеллекта, чаще всего упоминают вычислительные мощности и алгоритмы. Однако сегодня всё чаще звучит другая проблема — дефицит обучающих данных. По мнению специалистов, именно этот фактор может стать главным ограничителем для ИИ в ближайшие годы.

Позиция Goldman Sachs

Директор по данным и руководитель отдела разработки данных Goldman Sachs Нима Рафаэль в недавнем выступлении отметил, что доступные источники информации уже практически исчерпаны.

"Думаю, самое интересное будет в том, как предыдущие модели будут формировать то, каким окажется следующее воплощение мира в этом отношении", — заявил директор по данным Goldman Sachs Нима Рафаэль.

В качестве примера он привёл китайскую компанию DeepSeek, которая, по предположениям экспертов, могла обучать свои системы не на свежих данных, а на результатах работы других моделей.

Синтетические данные как новый ресурс

Когда интернет перестал быть неисчерпаемым источником, компании обратились к синтетическим данным — машинно-сгенерированному тексту, изображениям и коду. Это выглядит как безграничный ресурс, но у подхода есть существенные риски:

  • качество синтетики может быть ниже исходных данных;

  • модели начинают "вариться в собственном соку";

  • есть опасность деградации результатов, когда ИИ учится на данных, созданных другим ИИ.

Тем не менее, спрос на такие наборы стремительно растёт, особенно на потребительском рынке.

Закрытые корпоративные данные: новый рубеж

Рафаэль отметил, что реальным источником роста станут не публичные интернет-ресурсы, а закрытые базы данных, которыми владеют корпорации. В финансовом секторе, телекоммуникациях, здравоохранении и ритейле накоплены терабайты уникальной информации, которая может стать топливом для следующего поколения ИИ.

Задача бизнеса теперь состоит не только в поиске данных, но и в их правильной подготовке: нормализации, очистке, учёте бизнес-контекста.

Сравнение: источники данных для ИИ

Источник Преимущества Недостатки
Интернет Огромный объём, разное качество Практически исчерпан
Синтетические данные Неограниченный ресурс Риск низкого качества
Корпоративные данные Уникальность, практическая ценность Доступ ограничен, нужны инвестиции в обработку

Мнение OpenAI

Ещё в начале года соучредитель OpenAI Илья Суцкевер предупредил, что "все полезные данные из интернета уже использованы". По его словам, эпоха стремительного роста ИИ подошла к концу, и новые достижения будут даваться всё сложнее.

Ошибка → Последствие → Альтернатива

  • Ошибка: полагаться только на интернет-данные.

  • Последствие: модели перестают улучшаться.

  • Альтернатива: работа с закрытыми корпоративными наборами и специализированными архивами.

  • Ошибка: бесконтрольное использование синтетических данных.

  • Последствие: деградация качества и появление "шума".

  • Альтернатива: комбинирование реальных и синтетических данных, внедрение фильтров качества.

А что если синтетика станет основой?

Если будущее ИИ окажется связано в основном с синтетическими данными, возможны два сценария. Первый — ускорение разработки благодаря бесконечному ресурсу. Второй — снижение качества и рост ошибок, если новые модели будут обучаться на "копиях копий".

Плюсы и минусы синтетических данных

Плюсы Минусы
Потенциально бесконечный источник Опасность замкнутого цикла
Быстрая генерация Размывание качества
Можно создавать редкие сценарии Не всегда отражают реальность
Удобно тестировать алгоритмы Риск "галлюцинаций" моделей

FAQ

Правда ли, что интернет-данные полностью исчерпаны?
Большинство полезных и уникальных данных уже использовано. Однако остаются корпоративные и нишевые источники.

Заменят ли синтетические данные реальные?
Полностью — вряд ли. Лучший вариант — комбинация синтетики и живой информации.

Как компании могут использовать свои закрытые данные?
Необходимо создать инфраструктуру для безопасной обработки, учитывать контекст и нормализовать информацию для обучения моделей.

Мифы и правда

  • Миф: синтетические данные лучше реальных.

  • Правда: они полезны, но не могут полностью заменить живые источники.

  • Миф: у корпораций нет ценного контента для ИИ.

  • Правда: именно закрытые архивы могут дать мощный толчок развитию.

  • Миф: ИИ всегда прогрессирует одинаковыми темпами.

  • Правда: рост замедляется из-за нехватки новых данных.

3 интересных факта

  1. DeepSeek в Китае подозревают в использовании результатов других моделей вместо уникальных данных.

  2. По оценкам Goldman Sachs, взрывной рост синтетических данных уже заметен на потребительском рынке.

  3. Суцкевер из OpenAI ещё в начале года заявил, что "эпоха быстрого развития ИИ безусловно закончится".

Исторический контекст

  • 2015-2019: бум открытых наборов данных и быстрый рост ИИ.

  • 2020-2022: активное использование интернет-контента для обучения моделей.

  • 2023-2024: рост дискуссий о дефиците данных.

  • 2025: акцент смещается на синтетические и корпоративные наборы.

Подписывайтесь на NewsInfo.Ru

Читайте также

Православный мессенджер Зосима выйдет в первой половине 2026 года — Агапов 06.12.2025 в 7:57
Секретный проект раскрыт: Зосима выйдет в 2026-м и обещает стать главным духовным каналом

Православный мессенджер "Зосима" готовят к публичному запуску в 2026-м: тест уже прошли тысячи пользователей, а дальше всё решит масштабирование.

Читать полностью »
Конфликт приложений может замедлять работу гаджета — IT-эксперт Муртазин 05.12.2025 в 13:34
Когда телефон живет своей жизнью: из-за этих процессов гаджет начинает тормозить

Аналитик Эльдар Муртазин объяснил NewsInfo почему телефон может перегреваться и "тормозить".

Читать полностью »
Pokemon TCG Pocket признана лучшей игрой для iPhone — App Store Awards 2025 05.12.2025 в 13:25
Игры и приложения года раскрыты: пользователи не ожидали такого расклада от Apple

Премия App Store Awards 2025 изменила расстановку сил между крупными студиями и независимыми разработчиками, показав неожиданные приоритеты индустрии.

Читать полностью »
Модели телевизоров от Tuvio, TCL и Hisense названы лучшими до 17 тысяч рублей — Палач 05.12.2025 в 13:15
Бюджетные телевизоры поражают возможностями: не думал, что за такие деньги бывает такое

Подборка трёх доступных телевизоров до 17 тысяч рублей показывает, как бюджетный сегмент постепенно перенимает функции более дорогих моделей, сохраняя привлекательную цену.

Читать полностью »
Теневые каналы в Telegram живут в среднем семь месяцев — Лаборатория Касперского 05.12.2025 в 9:36
Лаборатория Касперского раскрыла правду: почему даже крупные теневые каналы в Telegram живут недолго

Kaspersky изучила 800+ теневых Telegram-каналов: в среднем они живут около семи месяцев. Почему блокировки усилились и куда уходят крупные сообщества?

Читать полностью »
Расширения WeTab и Infinity V+ собирали данные 4 млн пользователей — KOI Security 05.12.2025 в 8:57
Осторожно, обновление: как безобидное расширение после апдейта начало похищать ваши пароли

WeTab и Infinity V+ подозревают в скрытом сборе данных через обновления. Как работала "долгая" атака и почему пострадали миллионы пользователей?

Читать полностью »
Вредоносное ПО для Android закрепляется в системе — ТАСС 05.12.2025 в 8:23
Мошенники знают ваши слабые места: почему вы добровольно установите троян под видом YouTube Pro

Под видом "18+" и "расширенных" TikTok и YouTube пользователям подсовывают трояны. Как устроена сеть сайтов и что нашли операторы.

Читать полностью »
MacBook Air M1 признали актуальным в 2025 году — iGuides 04.12.2025 в 21:42
Этот недорогой MacBook снова все обсуждают — причина удивила даже опытных пользователей

Пользователи обсуждают, насколько старый MacBook Air M1 сохраняет актуальность на фоне падения цен и долгой поддержки macOS, и какие ограничения остаются заметными.

Читать полностью »