23
Подборка решений: открытые бенчмарки для моделей
Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.
ICT.Moscow собрал в одной подборке бенчмарки, которые были представлены и выложены в общий доступ российскими командами за последние несколько лет.
***
💡 Бенчмарк общего профиля
🏷MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей.
Разработчик — Альянс в сфере искусственного интеллекта
💡 Бенчмарки для сравнения производительности
На 🏷LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг.
Разработчик — команда во главе с Романом Куцевым
В 🏷RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей.
Разработчик — Vikhr Models
В 🏷rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания.
Разработчик — Лаборатория анализа данных Александра Кукушкина
🏷ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов.
Разработчик — SberDevices
💡 Бенчмарки для длинного контекста
Бенчмарк 🏷BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.
Разработчики — Институт AIRI, МФТИ
🏷LIBRA помогает проанализировать умение языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста.
Разработчики — AIRI, ecom. tech, SberTech и МФТИ
💡 Бенчмарки для обработки и понимания естественного языка
🏷RuCoLa оценивает лингвистическую компетентность больших языковых моделей.
Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ
🏷ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям.
Разработчик — SberDevices
🏷RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей.
Разработчики — Huawei, SberDevices, НИУ ВШЭ
🏷TAPE испытывает модели в их способностях обрабатывать русский естественный язык.
Разработчики — SberDevices, НИУ ВШЭ и Huawei
💡 Бенчмарк для работы с медицинскими данными
С помощью 🏷MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными.
Разработчик — Лаборатория искусственного интеллекта «Сбера»
💡 Бенчмарки для работы с эмбеддингами и эмбеддерами
🏷ruMTEB проверяет текстовые эмбеддинги и эмбеддеры.
Разработчик — SberDevices
Для научных текстов их испытывает 🏷ruSciBench.
Разработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова
🏷RuSentEval также тестирует эмбеддинги и эмбеддеры.
Разработчики — НИУ ВШЭ, SberDevices
👉🏻 Полная версия подборки
ОригиналИсследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.
ICT.Moscow собрал в одной подборке бенчмарки, которые были представлены и выложены в общий доступ российскими командами за последние несколько лет.
***
💡 Бенчмарк общего профиля
🏷MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей.
Разработчик — Альянс в сфере искусственного интеллекта
💡 Бенчмарки для сравнения производительности
На 🏷LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг.
Разработчик — команда во главе с Романом Куцевым
В 🏷RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей.
Разработчик — Vikhr Models
В 🏷rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания.
Разработчик — Лаборатория анализа данных Александра Кукушкина
🏷ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов.
Разработчик — SberDevices
💡 Бенчмарки для длинного контекста
Бенчмарк 🏷BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.
Разработчики — Институт AIRI, МФТИ
🏷LIBRA помогает проанализировать умение языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста.
Разработчики — AIRI, ecom. tech, SberTech и МФТИ
💡 Бенчмарки для обработки и понимания естественного языка
🏷RuCoLa оценивает лингвистическую компетентность больших языковых моделей.
Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ
🏷ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям.
Разработчик — SberDevices
🏷RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей.
Разработчики — Huawei, SberDevices, НИУ ВШЭ
🏷TAPE испытывает модели в их способностях обрабатывать русский естественный язык.
Разработчики — SberDevices, НИУ ВШЭ и Huawei
💡 Бенчмарк для работы с медицинскими данными
С помощью 🏷MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными.
Разработчик — Лаборатория искусственного интеллекта «Сбера»
💡 Бенчмарки для работы с эмбеддингами и эмбеддерами
🏷ruMTEB проверяет текстовые эмбеддинги и эмбеддеры.
Разработчик — SberDevices
Для научных текстов их испытывает 🏷ruSciBench.
Разработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова
🏷RuSentEval также тестирует эмбеддинги и эмбеддеры.
Разработчики — НИУ ВШЭ, SberDevices
👉🏻 Полная версия подборки