MWS AI выпустила мультимодальную модель Cotype VL и бенчмарк MWS Vision Bench

9 октября, 12:06|

222

MWS AI (входит в МТС Web Services) представила мультимодальную модель Cotype VL, способную одновременно анализировать текст и изображения. Компания также выпустила бенчмарк MWS Vision Bench для таких моделей.

Cotype VL основана на Qwen 2.5-VL от китайской Alibaba. Модель обучили на наборе данных на русском языке из различных областей, включая финансы, промышленность, ИТ, телеком и здравоохранение. В датасет вошли больше 150 тыс. документов с визуальными данными, а также сканированные изображения и скриншоты.

В наборе данных оказались контракты, договоры, диаграммы, таблицы, рукописные конспекты, тетради, справки, открытки, чеки, билеты, грамоты, медицинские анализы, скриншоты интерфейсов бизнес-приложений, инженерного ПО и игр. Для обучения был разработан инструмент, который генерирует синтетические данные на основе реальных примеров. Текстовые и визуальные данные из открытых источников были очищены от персональной информации.

Мультимодальная модель распознает изображения с печатным, рукописным и смешанным текстом, а также учитывает визуальный контекст при переводе с одного языка на другой. Она создает краткое и развернутое описание изображений и отвечает на вопросы по их содержанию, которые требуют рассуждений, сравнений и выводов.

Cotype VL содержит 32 млрд параметров. Поддерживаются русский, английский, китайский и другие языки. Поставляется в виде отдельного продукта и в составе ИИ-помощников MWS AI. Модель можно развернуть в закрытом контуре компании и в случае необходимости дообучить на данных заказчика. Разработчики предполагают, что их модель будет востребована в ИИ-решениях, ориентированных на проектные и инженерные службы, юридические, финансовые и кадровые департаменты, а также на маркетинг.

Открытый бенчмарк MWS Vision Bench предназначен для оценки мультимодальных моделей, которые способны одновременно анализировать изображения и текст. Как отмечают разработчики, существующие аналоги не охватывают работу решений в продуктовых задачах, где необходимо взаимодействие с документами на русском языке.

MWS Vision Bench проверяет эффективность считывания текста с изображений, понимания структуры документа, поиска информации, распознавания расположения элементов и ответов на сложные вопросы по содержимому. В набор входит 800 изображений и около 2,6 тыс. заданий. В открытом доступе опубликована валидационная часть — 400 изображений и 1,3 тыс. заданий.

Карточки решений:
Cotype VL
MWS Vision Bench

Подробнее

Технологии:

#искусственный_интеллект #генеративный_ИИ #бенчмарк #распознавание_документа

Компании:

#МТС

Расскажите знакомым:

Материалы
по теме:

15:55

Нейросеть GigaChat сдала экзамены в РАНХиГС по направлениям «Экономика и финансы» и «Финансовая грамотность»

Сбербанк

15:22

В Москве с 2026 года начнется эксперимент по применению ИИ для выявления нарушений в благоустройстве

Ведомости

14:33

«Сбер» представил ИИ-помощников для пользователей и бизнеса

Коммерсант

12:01

AppSec Solutions разработал SCA-анализатор AppSec.Track для проверки сгенерированного кода

AppSec Solutions

16 дек. 12:56

Москва разрабатывает подход для оптимизации градостроительного развития с помощью ИИ и цифровых двойников

mos.ru

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение