Команда разработчиков MERA выпустила новый бенчмарк MERA Multi для комплексной оценки мультимодальных способностей моделей на русском языке. Он включает 18 задач, которые проверяют понимание изображений, аудио и видео.
Задачи на визуальное восприятие оценивают способность распознавать объекты, интерпретировать сцены и соотносить их с текстовым описанием. Такие навыки есть у систем генерации изображений и поиска по ним, а также систем безопасности. Задачи на понимание аудио оценивают способность распознавать речь, интонации и звуковые сигналы. С их помощью можно проверить голосовых ассистентов и приложения, которые работают в шумной среде. Задачи на анализ видео оценивают способность отслеживания действий, событий и причинно-следственных связей во временном контексте, что является основой для интеллектуальных ассистентов, агентов и мультимодального поиска.
В рамках проекта также представлена таксономия навыков — описание компетенций, которые необходимы для мультимодальных задач. В перспективе все бенчмарки MERA будут использовать одну систему навыков.
Бенчмарк MERA для оценки русскоязычных языковых моделей был выпущен в конце 2023 года. Позднее появились также MERA Code для задач программирования и MERA Industrial для проверки отраслевых LLM. Команда MERA разрабатывает бенчмарки при поддержке Альянса в сфере ИИ.
В Москве утвержден порядок работы роверов в доставке
Департамент транспорта
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.