A-Vision
Большая мультимодальная модель
Визуально-языковая модель (Visual Language Model, VLM) A-Vision размером в 7,4 млрд параметров работает с изображениями и текстом. В частности, решение может использоваться для задач оптического распознавания символов (Optical Character Recognition, OCR) и извлечения признаков с изображений.
В основе A-Vision лежит модель Qwen2.5-VL, которая была дообучена на датасете из 200 тыс. изображений из объявлений на платформе «Авито» и 1 млн пар вопросов и ответов. Для A-Vision, как и для LLM A-Vibe, был разработан русскоязычный токенизатор, а также проведена тонкая настройка с учителем (Supervised Fine-Tuning, SFT) и обучения с подкреплением с помощью метода прямой оптимизации предпочтений (Direct Preference Optimization, DPO). В результате, по заявлениям разработчиков, A-Vision сталf на 50% быстрее работать с русскоязычными данными по сравнению с китайским оригиналом.
Модель A-Vision была представлена компанией AvitoTech (дочерним подразделением «Авито») в марте 2025 года. Доступна как открытое ПО.
