A-Vision на ICT.Moscow

ИБ В РОССИИ: БАЗА ЗНАНИЙИБ В РОССИИ: БАЗА ЗНАНИЙ

A-Vision

Большая мультимодальная модель

Описание:

Визуально-языковая модель (Visual Language Model, VLM) A-Vision размером в 7,4 млрд параметров работает с изображениями и текстом. В частности, решение может использоваться для задач оптического распознавания символов (Optical Character Recognition, OCR) и извлечения признаков с изображений.

В основе A-Vision лежит модель Qwen2.5-VL, которая была дообучена на датасете из 200 тыс. изображений из объявлений на платформе «Авито» и 1 млн пар вопросов и ответов. Для A-Vision, как и для LLM A-Vibe, был разработан русскоязычный токенизатор, а также проведена тонкая настройка с учителем (Supervised Fine-Tuning, SFT) и обучения с подкреплением с помощью метода прямой оптимизации предпочтений (Direct Preference Optimization, DPO). В результате, по заявлениям разработчиков, A-Vision сталf на 50% быстрее работать с русскоязычными данными по сравнению с китайским оригиналом.

Модель A-Vision была представлена компанией AvitoTech (дочерним подразделением «Авито») в марте 2025 года. Доступна как открытое ПО.

Репозиторий на Hugging Face

👤 Анастасия Рысьмятова

Участвует в спецпроектах ICT.Moscow:

Смотреть

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source

Разработчик:

#Avito

Проект запущен:

2025

Контакты:

1981

Последнее обновление:13.11.2025

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение