logo Alchemist

Alchemist

Датасет для обучения генеративных моделей

Описание:

Выложенный в открытый доступ датасет Alchemist предназначен для использования при тонкой настройке с учителем (Supervised Fine-Tuning, SFT) моделей, генерирующих изображения по текстовому запросу (Text-to-Image Model).

Он состоит из 3,3 тыс. пар «картинка — текст» в высоком разрешении.

Из первоначального набора в 10 млрд полученных с помощью веб-скрейпинга изображений с помощью классификатора были отобраны картинки высокого разрешения, после чего удалены те, что содержали вотермарки, имели низкое качество и были неэстетичны. Далее предобученная диффузионная модель отобрала те изображения, которые наилучшим образом позволяют провести SFT.

В ходе последнего этапа для каждого изображения с помощью визуально‑текстовой мультимодальной модели YandexVLM было сгенерировано словесное описание, похожее на пользовательский запрос.

Датасет Alchemist был представлен исследователями из Yandex Research в мае 2025 года.


Препринт на arXiv


👤 Валерий Старцев

👤 Сергей Кастрюлин

👤 Алексей Кириллов


logo Alchemist
Проект запущен:
2025
Последнее обновление:28.05.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.