
Cotype VL
Большая мультимодальная модель
Мультимодальная модель Cotype VL размером в 32 млрд параметров предназначена для работы с изображениями и текстом. Она распознает изображения с печатным, рукописным и смешанным текстом, создает краткое и развернутое описание картинок, отвечает на вопросы по их содержанию.
Cotype VL поддерживает русский, английский, китайский и ряд других языков.
Для обучения модели на базе нейросети Qwen 2.5-VL использовался датасет из 150 тыс. анонимизированных материалов с визуальными данными, в том числе диаграмм, таблиц, схем с картами и чертежами, сканов и скриншотов, в частности интерфейсов ПО, рукописных документов.
Решение поставляется как как в виде отдельного продукта, так и в составе ИИ-ассистентов. Заявляются опции развертывания Cotype VL в закрытом контуре и дообучения модели на данных пользователя.
Модель Cotype VL была представлена компанией MWS AI (входит в МТС Web Services) на форуме «Финополис-2025» в октябре 2025 года.
