
Бенчмарк для визуально‑текстовых мультимодальных моделей
Бенчмарк GQA-ru представляет собой русифицированную версию бенчмарка GQA для оценки визуально‑текстовых мультимодальных моделей (Visual Language Models, VLM) на датасете из более чем 52 тыс. вопросов. Он разделен на обучающую (40 тыс. вопросов) и тестовую (12,2 тыс. вопросов) выборки.
В каждом из вопросов содержится изображение, соответствующий ему граф сцены, текст вопроса, ответ, правильный ответ и его подробная версия.
От модели требуется дать правильный ответ. Для оценки результатов используется метрика Exact Match, которая в процентном соотношении отражает долю правильно сгенерированных моделью ответов от общего количества.
Бенчмарк GQA-ru был представлен исследователями из VK Lab в августе 2024 года.
#искусственный_интеллект#генеративный_ИИ#нейросети#машинное_обучение#бенчмарк
Разработчик:Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.