logo Alchemist

Alchemist

Датасет для обучения генеративных моделей

Описание:

Датасет Alchemist для использования при тонкой настройке с учителем (Supervised Fine-Tuning, SFT) моделей, генерирующих изображения по текстовому запросу (Text-to-Image Model).

Он состоит из 3,3 тыс. пар «картинка — текст» в высоком разрешении.

Из первоначального набора в 10 млрд полученных с помощью веб-скрейпинга изображений с помощью классификатора были отобраны картинки высокого разрешения, после чего удалены те, что содержали вотермарки, имели низкое качество и были неэстетичны. Далее предобученная диффузионная модель отобрала те изображения, которые наилучшим образом позволяют провести SFT.

В ходе последнего этапа для каждого изображения с помощью визуально‑текстовой мультимодальной модели YandexVLM было сгенерировано словесное описание, похожее на пользовательский запрос.

Датасет Alchemist представлен исследователями из Yandex Research в мае 2025 года. Доступен как открытое ПО.


Репозиторий на Hugging Face

Препринт на arXiv


👤 Валерий Старцев

👤 Сергей Кастрюлин

👤 Алексей Кириллов


Участвует в спецпроектах ICT.Moscow:
logo Alchemist
Проект запущен:
2025
Последнее обновление:12.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.