
Данные кончились, а жажда растёт: что теперь будет питать искусственный интеллект
Когда речь заходит о развитии искусственного интеллекта, чаще всего упоминают вычислительные мощности и алгоритмы. Однако сегодня всё чаще звучит другая проблема — дефицит обучающих данных. По мнению специалистов, именно этот фактор может стать главным ограничителем для ИИ в ближайшие годы.
Позиция Goldman Sachs
Директор по данным и руководитель отдела разработки данных Goldman Sachs Нима Рафаэль в недавнем выступлении отметил, что доступные источники информации уже практически исчерпаны.
"Думаю, самое интересное будет в том, как предыдущие модели будут формировать то, каким окажется следующее воплощение мира в этом отношении", — заявил директор по данным Goldman Sachs Нима Рафаэль.
В качестве примера он привёл китайскую компанию DeepSeek, которая, по предположениям экспертов, могла обучать свои системы не на свежих данных, а на результатах работы других моделей.
Синтетические данные как новый ресурс
Когда интернет перестал быть неисчерпаемым источником, компании обратились к синтетическим данным — машинно-сгенерированному тексту, изображениям и коду. Это выглядит как безграничный ресурс, но у подхода есть существенные риски:
-
качество синтетики может быть ниже исходных данных;
-
модели начинают "вариться в собственном соку";
-
есть опасность деградации результатов, когда ИИ учится на данных, созданных другим ИИ.
Тем не менее, спрос на такие наборы стремительно растёт, особенно на потребительском рынке.
Закрытые корпоративные данные: новый рубеж
Рафаэль отметил, что реальным источником роста станут не публичные интернет-ресурсы, а закрытые базы данных, которыми владеют корпорации. В финансовом секторе, телекоммуникациях, здравоохранении и ритейле накоплены терабайты уникальной информации, которая может стать топливом для следующего поколения ИИ.
Задача бизнеса теперь состоит не только в поиске данных, но и в их правильной подготовке: нормализации, очистке, учёте бизнес-контекста.
Сравнение: источники данных для ИИ
Источник | Преимущества | Недостатки |
Интернет | Огромный объём, разное качество | Практически исчерпан |
Синтетические данные | Неограниченный ресурс | Риск низкого качества |
Корпоративные данные | Уникальность, практическая ценность | Доступ ограничен, нужны инвестиции в обработку |
Мнение OpenAI
Ещё в начале года соучредитель OpenAI Илья Суцкевер предупредил, что "все полезные данные из интернета уже использованы". По его словам, эпоха стремительного роста ИИ подошла к концу, и новые достижения будут даваться всё сложнее.
Ошибка → Последствие → Альтернатива
-
Ошибка: полагаться только на интернет-данные.
-
Последствие: модели перестают улучшаться.
-
Альтернатива: работа с закрытыми корпоративными наборами и специализированными архивами.
-
Ошибка: бесконтрольное использование синтетических данных.
-
Последствие: деградация качества и появление "шума".
-
Альтернатива: комбинирование реальных и синтетических данных, внедрение фильтров качества.
А что если синтетика станет основой?
Если будущее ИИ окажется связано в основном с синтетическими данными, возможны два сценария. Первый — ускорение разработки благодаря бесконечному ресурсу. Второй — снижение качества и рост ошибок, если новые модели будут обучаться на "копиях копий".
Плюсы и минусы синтетических данных
Плюсы | Минусы |
Потенциально бесконечный источник | Опасность замкнутого цикла |
Быстрая генерация | Размывание качества |
Можно создавать редкие сценарии | Не всегда отражают реальность |
Удобно тестировать алгоритмы | Риск "галлюцинаций" моделей |
FAQ
Правда ли, что интернет-данные полностью исчерпаны?
Большинство полезных и уникальных данных уже использовано. Однако остаются корпоративные и нишевые источники.
Заменят ли синтетические данные реальные?
Полностью — вряд ли. Лучший вариант — комбинация синтетики и живой информации.
Как компании могут использовать свои закрытые данные?
Необходимо создать инфраструктуру для безопасной обработки, учитывать контекст и нормализовать информацию для обучения моделей.
Мифы и правда
-
Миф: синтетические данные лучше реальных.
-
Правда: они полезны, но не могут полностью заменить живые источники.
-
Миф: у корпораций нет ценного контента для ИИ.
-
Правда: именно закрытые архивы могут дать мощный толчок развитию.
-
Миф: ИИ всегда прогрессирует одинаковыми темпами.
-
Правда: рост замедляется из-за нехватки новых данных.
3 интересных факта
-
DeepSeek в Китае подозревают в использовании результатов других моделей вместо уникальных данных.
-
По оценкам Goldman Sachs, взрывной рост синтетических данных уже заметен на потребительском рынке.
-
Суцкевер из OpenAI ещё в начале года заявил, что "эпоха быстрого развития ИИ безусловно закончится".
Исторический контекст
-
2015-2019: бум открытых наборов данных и быстрый рост ИИ.
-
2020-2022: активное использование интернет-контента для обучения моделей.
-
2023-2024: рост дискуссий о дефиците данных.
-
2025: акцент смещается на синтетические и корпоративные наборы.
Подписывайтесь на NewsInfo.Ru