logo Switti

Switti

Нейросеть

Описание:

Выложенная в открытый доступ модель генерирует изображение по заданному пользователем тексту. Switti (Scale-wise transformer for text-to-image synthesis) представляет собой авторегрессионную модель на основе архитектуры STAR. Изображение разбивается на разные уровни разрешений, от содержащих общую семантику нижних к все более детализированным верхним. Полученная картинка получается посредством суммирования всех разрешений.

В Switti, в отличие от предыдущих подобных моделей, все разрешения генерируются независимо друг от друга, что, по оценкам разработчиков, позволило ускорить нейросеть на 20–30%. Кроме того, исследователи добавили в модель дополнительные нормализационные слои, позволившие стабилизировать ее обучение на датасете из более чем 100 млн изображений.

Проведенная исследователями оценка (как с помощью метрик и моделей вознаграждений, так и пользовательских отзывов) показала, что по качеству Switti сравнима с диффузионными моделями (в частности, Stable Diffusion), но генерирует изображения значительно быстрее. Кроме того, выяснилось, что при подмене текстового запроса в ходе генерации модель генерировала усредненное изображение на основе двух промптов.

Модель была представлена специалистами из Yandex Research в декабре 2024 года.


Демоверсия на Hugging Face

Препринт на arXiv

Репозиторий на GitHub


👤 Денис Кузнеделев


logo Switti
Проект запущен:
2024
Последнее обновление:18.12.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0