

Бенчмарк для мультимодальных моделей
MWS Vision Bench проверяет, насколько эффективно мультимодальные модели выполняют задачи оптического распознавания символов (Optical Character Recognition, OCR) для документов: считывают текст с изображений, понимают структуру документа, находят необходимую информацию, распознают расположение элементов и отвечают на вопросы по содержимому.
Бенчмарк состоит из 2,5 тыс. заданий по сценариям обработки бизнес-документов и рукописных данных в российских организациях. В набор из 800 изображений включены офисные и личные документы, схемы, рукописные записи (в том числе анкеты и нотные записи), таблицы, чертежи, диаграммы, графики, файлы в формате JSON.
Исходный датасет случайным образом разделен на две части по 400 изображений каждая: валидационную (1,3 тыс. задания) и тестовую (1,2 тыс. заданий). По состоянию на октябрь 2025 года модели с помощью первой из них возможно тестировать через API. Для оценки на тестовой части необходимо обратиться к разработчикам.
Бенчмарк MWS Vision Bench был представлен компанией MWS AI (входит в состав МТС Web Services) в октябре 2025 года. Частично доступен как открытое ПО.
Репозиторий валидационной части датасета на Hugging Face

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.