ГлавнаяЛента

Подборки карточек

Подборка решений: открытые бенчмарки для моделей ИИ

18 ноября, 13:35|
250

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.

ICT.Moscow собрал в одной подборке 18 бенчмарков, которые были представлены и выложены в общий доступ российскими командами с 2020 года. Перейдя по ссылке на карточку, можно подробнее изучить возможности решения, найти дополнительную информацию и контакты команд-разработчиков.


Бенчмарк общего профиля

  • MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей. Разработчик — Альянс в сфере искусственного интеллекта.

Бенчмарки для сравнения производительности 

  • На LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг. Разработчик — команда во главе с Романом Куцевым.
  • В RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей. Разработчик — Vikhr Models.
  • В rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания. Разработчик — Лаборатория анализа данных Александра Кукушкина.
  • ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов. Разработчик — SberDevices.

Бенчмарки для длинного контекста

  • Бенчмарк BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах. Разработчики — Институт AIRI, МФТИ.
  • LIBRA помогает проанализировать способности языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста. Разработчики — AIRI, ecom.tech, SberTech и МФТИ.

Бенчмарки для обработки и понимания естественного языка

  • RuCoLa оценивает лингвистическую компетентность больших языковых моделей. Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ.
  • ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям. Разработчик — SberDevices.
  • RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей. Разработчики — Huawei, SberDevices, НИУ ВШЭ.
  • TAPE испытывает модели в их способностях обрабатывать русский естественный язык. Разработчики — SberDevices, НИУ ВШЭ и Huawei.

Бенчмарки для работы с русскоязычным контекстом 

  • Шлепа проверяет то, насколько хорошо большие языковые модели могут учитывать в своей работе русскоязычный контекст. Разработчик — Vikhr Models.
  • SLAVA проверяет, учитывают ли большие языковые модели в своей работе особенности культуры и законодательства России. Разработчики — РАНХиГС, Институт системного программирования РАН.

Бенчмарк для работы с медицинскими данными

  • С помощью MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными. Разработчик — Лаборатория искусственного интеллекта «Сбера».

Бенчмарки для работы с эмбеддингами и эмбеддерами

  • ruMTEB проверяет текстовые эмбеддинги и эмбеддеры. Разработчик — SberDevices.
  • Для научных текстов их испытывает ruSciBenchРазработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова.
  • RuSentEval также тестирует эмбеддинги и эмбеддеры. Разработчики — НИУ ВШЭ, SberDevices.

Бенчмарк для работы с программным кодом

  • RealCode_eval позволяет проверить, насколько хорошо большие языковые модели генерируют программный код. Разработчик — SberDevices.

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0