logo Switti

Switti

Нейросеть

Описание:

Выложенная в открытый доступ модель генерирует изображение по заданному пользователем тексту. Switti (Scale-Wise Transformer for Text-to-Image Synthesis) представляет собой авторегрессионную модель на основе архитектуры STAR. Изображение разбивается на разные уровни разрешений, от содержащих общую семантику нижних ко все более детализированным верхним. Полученная картинка формируется посредством суммирования всех разрешений.

В Switti в отличие от предыдущих подобных моделей все разрешения генерируются независимо друг от друга, что, по оценкам разработчиков, позволило ускорить нейросеть на 20–30%. Кроме того, исследователи добавили в модель дополнительные нормализационные слои, позволившие стабилизировать ее обучение на датасете из более чем 100 млн изображений.

Проведенная исследователями оценка (как с помощью метрик и моделей вознаграждений, так и пользовательских отзывов) показала, что по качеству Switti сравнима с диффузионными моделями (в частности, Stable Diffusion), но генерирует изображения значительно быстрее. Кроме того, выяснилось, что при подмене текстового запроса в ходе генерации модель создавала усредненное изображение на основе двух промптов.

Модель была представлена специалистами из Yandex Research в декабре 2024 года.


Демоверсия на Hugging Face

Препринт на arXiv

Репозиторий на GitHub


👤 Денис Кузнеделев


logo Switti
Проект запущен:
2024
Последнее обновление:23.12.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0