Искусственный интеллект осваивает российскую культуру: лучшие нейросети прошли тест на знание мемов и стереотипов

GPT-4, Claude и LLaMA показали лучшие результаты в тесте на понимание русского культурного контекста

Ученые из МФТИ, объединив усилия лингвистов, культурологов и математиков, разработали новаторский метод оценки способности больших языковых моделей (LLM) понимать культурные особенности и языковые нюансы, включая распознавание мемов.

В рамках проекта "Культурные замеры больших языковых моделей" исследователи создали комплексную систему тестирования, которая оценивает, насколько искусственный интеллект (ИИ) способен распознавать и адекватно реагировать на вопросы, требующие знания российских культурных кодов.

Исследование проходило под руководством профессора НИУ ВШЭ Максима Кронгауза. Группа разработала методику, которая включает анализ реакций ИИ на задания, основанные на типичных российских мемах, цитатах из литературы и кино, а также на распространенных языковых стереотипах.

Для тестирования были выбраны восемь ключевых культурных групп, представляющих разнообразие российского общества. На основе этих групп было создано 400 тестовых заданий. В эксперименте приняли участие десять передовых зарубежных LLM, включая различные версии GPT-4, GPT-3.5, Claude 3.5 и LLaMA.

Результаты показали, что GPT-4 продемонстрировал наиболее высокий уровень понимания, правильно отвечая на большинство вопросов. Claude 3.5 немного уступил GPT-4, заняв второе место. LLaMA завершила тройку лидеров. Остальные системы, включая Google Gemini, показали значительно более низкие результаты в понимании культурного контекста. Это подчеркивает важность разработки специализированных методик оценки LLM с учетом национально-культурных особенностей.

Подписывайтесь на NewsInfo.Ru

Искусственный интеллект осваивает российскую культуру: лучшие нейросети прошли тест на знание мемов и стереотипов

Читайте также

Новости