Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.
ICT.Moscow собрал в одной подборке 18 бенчмарков, которые были представлены и выложены в общий доступ российскими командами с 2020 года. Перейдя по ссылке на карточку, можно подробнее изучить возможности решения, найти дополнительную информацию и контакты команд-разработчиков.
Бенчмарк общего профиля
- MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей. Разработчик — Альянс в сфере искусственного интеллекта.
Бенчмарки для сравнения производительности
- На LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг. Разработчик — команда во главе с Романом Куцевым.
- В RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей. Разработчик — Vikhr Models.
- В rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания. Разработчик — Лаборатория анализа данных Александра Кукушкина.
- ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов. Разработчик — SberDevices.
Бенчмарки для длинного контекста
- Бенчмарк BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах. Разработчики — Институт AIRI, МФТИ.
- LIBRA помогает проанализировать способности языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста. Разработчики — AIRI, ecom.tech, SberTech и МФТИ.
Бенчмарки для обработки и понимания естественного языка
- RuCoLa оценивает лингвистическую компетентность больших языковых моделей. Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ.
- ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям. Разработчик — SberDevices.
- RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей. Разработчики — Huawei, SberDevices, НИУ ВШЭ.
- TAPE испытывает модели в их способностях обрабатывать русский естественный язык. Разработчики — SberDevices, НИУ ВШЭ и Huawei.
Бенчмарки для работы с русскоязычным контекстом
- Шлепа проверяет то, насколько хорошо большие языковые модели могут учитывать в своей работе русскоязычный контекст. Разработчик — Vikhr Models.
- SLAVA проверяет, учитывают ли большие языковые модели в своей работе особенности культуры и законодательства России. Разработчики — РАНХиГС, Институт системного программирования РАН.
Бенчмарк для работы с медицинскими данными
- С помощью MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными. Разработчик — Лаборатория искусственного интеллекта «Сбера».
Бенчмарки для работы с эмбеддингами и эмбеддерами
- ruMTEB проверяет текстовые эмбеддинги и эмбеддеры. Разработчик — SberDevices.
- Для научных текстов их испытывает ruSciBench. Разработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова.
- RuSentEval также тестирует эмбеддинги и эмбеддеры. Разработчики — НИУ ВШЭ, SberDevices.
Бенчмарк для работы с программным кодом
- RealCode_eval позволяет проверить, насколько хорошо большие языковые модели генерируют программный код. Разработчик — SberDevices.