
Датасет для обучения генеративных моделей
Выложенный в открытый доступ датасет Alchemist предназначен для использования при тонкой настройке с учителем (Supervised Fine-Tuning, SFT) моделей, генерирующих изображения по текстовому запросу (Text-to-Image Model).
Он состоит из 3,3 тыс. пар «картинка — текст» в высоком разрешении.
Из первоначального набора в 10 млрд полученных с помощью веб-скрейпинга изображений с помощью классификатора были отобраны картинки высокого разрешения, после чего удалены те, что содержали вотермарки, имели низкое качество и были неэстетичны. Далее предобученная диффузионная модель отобрала те изображения, которые наилучшим образом позволяют провести SFT.
В ходе последнего этапа для каждого изображения с помощью визуально‑текстовой мультимодальной модели YandexVLM было сгенерировано словесное описание, похожее на пользовательский запрос.
Датасет Alchemist был представлен исследователями из Yandex Research в мае 2025 года.
#искусственный_интеллект#генеративный_ИИ#нейросети#машинное_обучение
Разработчик:Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.