
Switti
Нейросеть
Выложенная в открытый доступ модель генерирует изображение по заданному пользователем тексту. Switti (Scale-Wise Transformer for Text-to-Image Synthesis) представляет собой авторегрессионную модель на основе архитектуры STAR. Изображение разбивается на разные уровни разрешений, от содержащих общую семантику нижних ко все более детализированным верхним. Полученная картинка формируется посредством суммирования всех разрешений.
В Switti в отличие от предыдущих подобных моделей все разрешения генерируются независимо друг от друга, что, по оценкам разработчиков, позволило ускорить нейросеть на 20–30%. Кроме того, исследователи добавили в модель дополнительные нормализационные слои, позволившие стабилизировать ее обучение на датасете из более чем 100 млн изображений.
Проведенная исследователями оценка (как с помощью метрик и моделей вознаграждений, так и пользовательских отзывов) показала, что по качеству Switti сравнима с диффузионными моделями (в частности, Stable Diffusion), но генерирует изображения значительно быстрее. Кроме того, выяснилось, что при подмене текстового запроса в ходе генерации модель создавала усредненное изображение на основе двух промптов.

Модель была представлена специалистами из Yandex Research в декабре 2024 года.
