
Группа исследователей разработала метод защиты чат-бота ChatGPT от джейлбрейк-атак
Группа исследователей из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработала метод защиты чат-бота ChatGPT от джейлбрейк-атак, целью которых является вынуждение искусственного интеллекта (ИИ) выдавать вредные данные.
Этот простой метод использует системные подсказки, аналогичные методу самонапоминания в психологии, чтобы напоминать ChatGPT о необходимости предоставлять ответы, соответствующие определенным этическим правилам.
Исследование опубликовано в Nature Machine Intelligence (NMI).
Набор данных с примерами джейлбрейк-подсказок использовался для тестирования метода, и результаты показали снижение вероятности успешных джейлбрейк-атак с 67,21% до 19,34%. Исследователи считают, что этот метод можно дополнительно усовершенствовать для уменьшения уязвимости ИИ к подобным атакам и поощрения разработки других стратегий защиты, сообщает Газета.Ру.
Подписывайтесь на NewsInfo.Ru