Альянс ИИ представил новый бенчмарк MERA Industrial для агросектора и медицины
На конференции ЦИПР Альянс ИИ анонсировал запуск MERA Industrial — нового стандарта оценки больших языковых моделей (LLM), предназначенного для решения бизнес-задач в различных отраслях. Платформа включает бенчмарки для сельского хозяйства и медицины, позволяя компаниям выбирать наиболее подходящие LLM для их нужд.
На данный момент доступны три датасета: ruTXTAgroBench (2935 запросов по агрономии), ruTXTAquaBench (1102 задания по аквакультуре) и ruTXTMedQFundamental (270 запросов по 17 медицинским дисциплинам). Все они разработаны на русском языке с участием ведущих вузов, включая Сколтех, Кубанский аграрный университет и НМИЦ им. Алмазова. MERA Industrial предоставляет возможность не только оценивать LLM, но и формировать новые задачи для их интеграции в бизнес-процессы.
«Сегодня искусственный интеллект становится неотъемлемой частью бизнес-процессов в самых различных отраслях. И бизнесу как никогда нужны надежные инструменты для оценки больших языковых моделей, способных решать реальные отраслевые задачи с высокой точностью и достоверностью. Запуск нового бенчмарка MERA Industrial на платформе Альянса в сфере ИИ — это значимый шаг к повышению прозрачности и качества LLM моделей в разных отраслях, где важен каждый аспект: от проверки знаний модели до ее способности работать с уникальными бизнес-кейсами. Мы активно используем подобные инструменты оценки, чтобы внедрять только проверенные и эффективные решения для наших клиентов», — отметил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка.