
Бенчмарк для визуально‑текстовых мультимодальных моделей
Выложенный в открытый доступ бенчмарк MMBench-ru представляет собой русифицированную версию бенчмарка MMBench. Используемый датасет был переведен с помощью большой языковой модели OpenAI GPT-4o, после чего из него были отсеяны не удавшиеся нейросети переводы.
Оба бенчмарка оценивают визуально‑текстовые мультимодальные модели (Visuon Language Models, VLM) с помощью задач на многовариантный выбор (Multiple Choice). MMBench-ru содержит почти 4 тыс. таких заданий, каждое из которых включает текст вопроса, связанное с ним изображение и четыре варианта ответов. От модели требуется дать правильный ответ. Для оценки результатов используется метрика Exact Match, которая в процентном соотношении отражает долю правильно сгенерированных моделью ответов от общего количества.
Бенчмарк MMBench-ru был представлен исследователями из VK Lab в августе 2024 года.
#искусственный_интеллект#генеративный_ИИ#нейросети#машинное_обучение#бенчмарк
Разработчик:Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.