logo A-Vision

A-Vision

Большая мультимодальная модель

Описание:

Визуально-языковая модель (Visual Language Model, VLM) A-Vision размером в 7,4 млрд параметров работает с изображениями и текстом. В частности, решение может использоваться для задач оптического распознавания символов (Optical Character Recognition, OCR) и извлечения признаков с изображений.

В основе A-Vision лежит модель Qwen2.5-VL, которая была дообучена на датасете из 200 тыс. изображений из объявлений на платформе «Авито» и 1 млн пар вопросов и ответов. Для A-Vision, как и для LLM A-Vibe, был разработан русскоязычный токенизатор, а также проведена тонкая настройка с учителем (Supervised Fine-Tuning, SFT) и обучения с подкреплением с помощью метода прямой оптимизации предпочтений (Direct Preference Optimization, DPO). В результате, по заявлениям разработчиков, A-Vision сталf на 50% быстрее работать с русскоязычными данными по сравнению с китайским оригиналом.

Модель A-Vision была представлена компанией AvitoTech (дочерним подразделением «Авито») в марте 2025 года. Доступна как открытое ПО.


Репозиторий на Hugging Face


👤 Анастасия Рысьмятова


Участвует в спецпроектах ICT.Moscow:
logo A-Vision
Проект запущен:
2025
Последнее обновление:13.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.