Команда «Яндекса» разработала тест для оценки знаний ИИ о мемах и культурном коде
Специалисты «Яндекса» создали бенчмарк, позволяющий оценить, насколько большие языковые модели (LLM) понимают специфические для нашей культуры элементы: отсылки к фильмам и песням, цитаты, традиции, анекдоты и мемы. Для этого, начиная с декабря 2023 года, была разработана серия заданий, чтобы сравнить, как на них реагируют люди и YandexGPT.
Разработчики выделили категории, составляющие культурный код: медиа (например, известные сюжетные линии кино и сериалов, песни, игры и так далее), язык (сленг, фразеологизмы, мемы и прочее), социальные (традиции и приметы, юмор), а также литература. По каждому из этих разделов исследовались формулировки вопросов и сравнивались ответы людей разных возрастов и моделей ИИ.
Важно было оценить не только знание конкретных фактов, но и более эфемерные явления, такие как цитаты и отсылки. Для этого аналитики создали набор открытых вопросов о различных культурных феноменах. Например, нейросеть должна ответить на вопрос: «По мнению чего требуют наши сердца и глаза?» (перефразировка). Многие вопросы намеренно формулировались более витиевато: «Что правда делает с глазами, когда нам неприятно ее слышать?» (колет). Также отдельная категория вопросов о знаниях сюжетов обычно предполагает несколько вариантов ответа.
Аналитики создали набор из 200 вопросов, который протестировали на команде. Оказалось, что ответы зависят от возраста респондентов. Например, люди младше 30 лет чаще не узнают отсылки к советскому кинематографу, тогда как старше 30 — могут не узнавать современные мемы.
По итогам тестов аналитики сформулировали 2000 разнообразных вопросов. Кроме нейросетей на них отвечали 211 AI-тренеров разных возрастов, которые позволили оценить, как с ответами справляется человек. В итоге средний скор у AI-тренеров составил 78 процентов правильных ответов. Для сравнения, YandexGPT Pro 4 справился на 63 процентах.