
Илон Маск: ИИ больше не может обучаться на данных человечества и сам будет создавать информацию
Компании, работающие в сфере искусственного интеллекта (ИИ), столкнулись с нехваткой данных для обучения своих моделей и уже "исчерпали" совокупные знания человечества, заявил Илон Маск в интервью для The Guardian.
По словам предпринимателя, разработчики технологий вынуждены обращаться к "синтетическим" данным — материалам, созданным самими ИИ-моделями, — чтобы совершенствовать свои системы. Этот процесс уже активно применяется в стремительно развивающейся индустрии.
"Совокупные знания человечества были исчерпаны для обучения ИИ. Это произошло, по сути, в прошлом году", — сказал Маск, основавший собственную компанию xAI в 2023 году.
Модели ИИ, такие как GPT-4, лежащая в основе ChatGPT, обучаются на огромных массивах данных из интернета. Они анализируют паттерны в информации, что позволяет им, например, предсказывать следующее слово в предложении.
Однако, как отметил Маск в интервью, транслируемом на его платформе X, единственным выходом из ситуации становится использование синтетических данных, созданных самими ИИ.
"Единственный способ дополнить недостаток данных — это синтетические материалы, где ИИ пишет эссе, формулирует тезисы, оценивает их и проходит процесс самообучения", — пояснил он.
Компании, такие как Microsoft, Google и OpenAI, уже применяют синтетические данные для улучшения своих моделей. Однако Маск предупредил, что "галлюцинации" — термин, обозначающий ошибки или бессмысленный вывод ИИ — представляют серьезную угрозу для процесса создания синтетических данных.
"Галлюцинации делают процесс работы с искусственными материалами сложным, потому что сложно определить, является ли результат вымыслом или реальным ответом", — отметил он.
Андрю Дункан, директор по фундаментальному ИИ в Институте Алана Тьюринга (Великобритания), отметил, что заявление Маска согласуется с недавним исследованием, согласно которому доступные публичные данные для обучения ИИ могут закончиться уже к 2026 году.
Дункан также подчеркнул, что чрезмерная зависимость от синтетических данных может привести к "коллапсу моделей" — снижению качества их работы.
"Когда вы начинаете кормить модель синтетическим материалом, вы сталкиваетесь с эффектом убывающей отдачи. Результаты становятся менее качественными, с предвзятостями и потерей креативности", — объяснил он.
Еще одна проблема — распространение контента, созданного ИИ, в интернете. Такой материал может быть случайно включен в новые тренировочные наборы данных, что только усугубляет проблему.
Контроль над качественными данными стал одной из ключевых юридических проблем в эпоху бума ИИ. В 2022 году OpenAI признала, что создание инструментов вроде ChatGPT невозможно без использования материалов, защищенных авторским правом. В то же время представители креативных индустрий требуют компенсации за использование их контента в процессе обучения моделей.
Таким образом, использование синтетических данных становится неизбежным, но сопряжено с рисками, которые требуют разработки новых подходов к обучению и регулированию ИИ.
Подписывайтесь на NewsInfo.Ru