Switti
Нейросеть
Выложенная в открытый доступ модель генерирует изображение по заданному пользователем тексту. Switti (Scale-wise transformer for text-to-image synthesis) представляет собой авторегрессионную модель на основе архитектуры STAR. Изображение разбивается на разные уровни разрешений, от содержащих общую семантику нижних к все более детализированным верхним. Полученная картинка получается посредством суммирования всех разрешений.
В Switti, в отличие от предыдущих подобных моделей, все разрешения генерируются независимо друг от друга, что, по оценкам разработчиков, позволило ускорить нейросеть на 20–30%. Кроме того, исследователи добавили в модель дополнительные нормализационные слои, позволившие стабилизировать ее обучение на датасете из более чем 100 млн изображений.
Проведенная исследователями оценка (как с помощью метрик и моделей вознаграждений, так и пользовательских отзывов) показала, что по качеству Switti сравнима с диффузионными моделями (в частности, Stable Diffusion), но генерирует изображения значительно быстрее. Кроме того, выяснилось, что при подмене текстового запроса в ходе генерации модель генерировала усредненное изображение на основе двух промптов.
Модель была представлена специалистами из Yandex Research в декабре 2024 года.