Reddit против ИИ: как комментарии стали оружием в миллионых исках

Reddit обратилась в суд против Perplexity из-за использования данных без разрешения

Платформа Reddit подала иск против компании Perplexity — разработчика поисковых и языковых моделей искусственного интеллекта — а также против трёх связанных с ней организаций. По словам Reddit, ответчики незаконно использовали защищённый контент, обходя технические ограничения, чтобы собрать огромные объёмы данных для обучения нейросетей.

Иск стал ещё одним звеном в цепочке конфликтов между владельцами контента и разработчиками ИИ, использующими открытые источники без лицензий.

"Наш подход остаётся принципиальным и ответственным, поскольку мы предоставляем фактические ответы с помощью точного искусственного интеллекта, и мы не потерпим угроз открытости и общественным интересам", — заявили в Perplexity.

Суть претензий Reddit

По версии Reddit, Perplexity и её партнёры намеренно обходили систему защиты данных, чтобы получить материалы, размещённые пользователями платформы. Эти тексты, комментарии и обсуждения использовались для обучения системы Perplexity Answers - ИИ-инструмента, который формирует краткие ответы на пользовательские запросы, используя данные из интернета.

Reddit утверждает, что её контент является наиболее цитируемым источником в ответах, которые генерирует Perplexity. При этом сама социальная сеть официально лицензировала свои данные лишь ограниченному числу партнёров — включая Google и OpenAI.

Кто ещё оказался в деле

В иске названы три дополнительные компании:

Oxylabs (Литва) - сервис для масштабного сбора данных из открытых источников;
AWMProxy (Россия) - прокси-провайдер, позволяющий скрывать источники запросов;
SerpApi (США) - платформа, которая предоставляет API для автоматизации поиска в Google и других системах.

Reddit утверждает, что эти компании помогали Perplexity собирать данные с миллиарда страниц без разрешения.

Представитель SerpApi заявил, что компания "категорически не согласна с обвинениями" и намерена защищать свою позицию в суде.

Как развивался конфликт

По словам представителей Reddit, ещё в прошлом году компания направила Perplexity официальное уведомление с требованием прекратить несанкционированный сбор данных. Однако вместо снижения активности количество ссылок на Reddit в выдаче Perplexity увеличилось в 40 раз. После этого Reddit обратилась в суд с требованием о компенсации и о запрете на дальнейшее использование её данных без лицензии.

Истцы добиваются:

Финансового возмещения ущерба.
Судебного постановления, запрещающего Perplexity и партнёрам использовать контент Reddit.
Подтверждения факта нарушения авторских прав.

Сравнение дел против разработчиков ИИ

Истец	Ответчик	Суть обвинений	Статус
Reddit	Perplexity	Незаконное копирование контента пользователей	Рассмотрение
Reddit	Anthropic	Использование данных Reddit в обучении Claude	Активен
Yomiuri Shimbun	Perplexity	Копирование новостных текстов	Активен
Britannica / Merriam-Webster	Perplexity	Использование справочных материалов	Активен

Таким образом, Perplexity стала одной из самых часто упоминаемых компаний в судебных делах, связанных с ИИ и авторскими правами.

Возможные последствия

Если суд встанет на сторону Reddit, это создаст прецедент, который может изменить подход к обучению языковых моделей. Компании, использующие публичные данные, будут вынуждены получать лицензии или заключать договоры с владельцами контента, а также более прозрачно раскрывать источники данных.

Для Reddit судебный процесс — способ защитить ценность пользовательского контента, который стал базой для многих систем ИИ, приносящих прибыль их разработчикам.

Почему Reddit усилила защиту данных

С недавнего времени Reddit активно монетизирует свой архив сообщений. Весной 2024 года платформа объявила, что продаёт лицензии на использование данных для обучения ИИ. Контракты с Google и OpenAI оцениваются в десятки миллионов долларов. Поэтому несанкционированный сбор данных напрямую подрывает бизнес-модель компании.

Для защиты своих ресурсов Reddit внедрила:

ограничения на частоту запросов к API;
требование аутентификации для сторонних ботов;
механизмы блокировки подозрительных IP-адресов;
алгоритмы выявления массового парсинга.

Ошибка → Последствие → Альтернатива

Ошибка	Последствие	Альтернатива
Использование данных без лицензии	Иск и запрет на использование модели	Легальные соглашения на обучение ИИ
Массовый парсинг без уведомления	Блокировка IP и потеря доверия	Применение открытых лицензий (Creative Commons)
Отсутствие прозрачности в источниках данных	Репутационные риски	Публикация перечня используемых датасетов

А что если Perplexity проиграет?

Если суд поддержит Reddit, компаниям, создающим ИИ-модели, придётся пересмотреть принципы обучения. Возможно, это приведёт к росту стоимости лицензий на данные, а также к появлению новых посредников, обеспечивающих легальную передачу текстов для обучения.

Но есть и другая сторона: если Perplexity докажет, что использовала только общедоступные данные, суд может признать такие действия правомерными в рамках "добросовестного использования" (fair use). Это станет облегчением для разработчиков ИИ, но вызовет протест со стороны издателей и владельцев контента.

Плюсы и минусы для индустрии

Плюсы	Минусы
Возможное формирование правовых стандартов для обучения ИИ	Рост расходов на лицензирование данных
Повышение прозрачности компаний-разработчиков	Замедление инноваций из-за юридических рисков
Защита прав создателей контента	Сложность соблюдения международных норм

Мифы и правда о судебных исках против ИИ

Миф	Правда
Все данные в интернете можно использовать для обучения моделей	Нет, авторские права распространяются даже на открытые публикации
Иск Reddit — единичный случай	Подобные дела уже подали десятки издателей и платформ
Reddit борется с ИИ в целом	Компания не против технологий, она требует лицензирования

Исторический контекст

Иски против ИИ-компаний начали массово подаваться с 2023 года. Первыми были The New York Times и Getty Images, заявившие о нарушении авторских прав при обучении моделей OpenAI и Stability AI. С тех пор судебные претензии стали нормой: компании ищут баланс между развитием технологий и соблюдением прав авторов.

Интересные факты

Reddit насчитывает более 100 миллиардов сообщений, каждое из которых может содержать уникальные данные для обучения моделей.
Perplexity позиционирует себя как "поисковик на базе ИИ", а не просто чат-бот, что делает её прямым конкурентом Google.
По данным SimilarWeb, трафик Perplexity за год вырос более чем в пять раз - частично благодаря активному использованию данных из Reddit.

FAQ

Почему Reddit выбрала именно Perplexity для иска?
Компания считает, что Perplexity систематически использовала данные Reddit для своих моделей без разрешения, несмотря на предупреждения.

Что говорит Perplexity в свою защиту?
Разработчики утверждают, что предоставляют "фактические ответы" и действуют в интересах пользователей, а их ИИ работает в рамках открытых источников.

Может ли это повлиять на пользователей Reddit?
Нет, обычные пользователи не столкнутся с ограничениями, но их контент теперь будет сильнее защищён.

Подписывайтесь на NewsInfo.Ru