• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
TELEGRAM-фидict_moscow_ai+ ПОДПИСАТЬСЯ
23
Подборка решений: открытые бенчмарки для моделей

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.

ICT.Moscow собрал в одной подборке бенчмарки, которые были представлены и выложены в общий доступ российскими командами за последние несколько лет.


***

💡 Бенчмарк общего профиля

🏷MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей.
Разработчик — Альянс в сфере искусственного интеллекта

💡 Бенчмарки для сравнения производительности

На 🏷LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг.
Разработчик — команда во главе с Романом Куцевым

В 🏷RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей.
Разработчик — Vikhr Models

В 🏷rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания.
Разработчик — Лаборатория анализа данных Александра Кукушкина

🏷ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов.
Разработчик — SberDevices

💡 Бенчмарки для длинного контекста

Бенчмарк 🏷BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.
Разработчики — Институт AIRI, МФТИ

🏷LIBRA помогает проанализировать умение языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста.
Разработчики — AIRI, ecom. tech, SberTech и МФТИ

💡 Бенчмарки для обработки и понимания естественного языка

🏷RuCoLa оценивает лингвистическую компетентность больших языковых моделей.
Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ

🏷ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям.
Разработчик — SberDevices

🏷RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей.
Разработчики — Huawei, SberDevices, НИУ ВШЭ

🏷TAPE испытывает модели в их способностях обрабатывать русский естественный язык.
Разработчики — SberDevices, НИУ ВШЭ и Huawei

💡 Бенчмарк для работы с медицинскими данными

С помощью 🏷MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными.
Разработчик — Лаборатория искусственного интеллекта «Сбера»

💡 Бенчмарки для работы с эмбеддингами и эмбеддерами

🏷ruMTEB проверяет текстовые эмбеддинги и эмбеддеры.
Разработчик — SberDevices

Для научных текстов их испытывает 🏷ruSciBench.
Разработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова

🏷RuSentEval также тестирует эмбеддинги и эмбеддеры.
Разработчики — НИУ ВШЭ, SberDevices


👉🏻 Полная версия подборки
Оригинал
Другие новости:

Следить за новостями
об искусственном интеллекте
в Telegram @ict_moscow_ai

Следить за новостями об искусственном интеллекте в Telegram 
@ict_moscow_ai

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0