Switti на ICT.Moscow

Switti

Нейросеть

Описание:

Выложенная в открытый доступ модель генерирует изображение по заданному пользователем тексту. Switti (Scale-Wise Transformer for Text-to-Image Synthesis) представляет собой авторегрессионную модель на основе архитектуры STAR. Изображение разбивается на разные уровни разрешений, от содержащих общую семантику нижних ко все более детализированным верхним. Полученная картинка формируется посредством суммирования всех разрешений.

В Switti в отличие от предыдущих подобных моделей все разрешения генерируются независимо друг от друга, что, по оценкам разработчиков, позволило ускорить нейросеть на 20–30%. Кроме того, исследователи добавили в модель дополнительные нормализационные слои, позволившие стабилизировать ее обучение на датасете из более чем 100 млн изображений.

Проведенная исследователями оценка (как с помощью метрик и моделей вознаграждений, так и пользовательских отзывов) показала, что по качеству Switti сравнима с диффузионными моделями (в частности, Stable Diffusion), но генерирует изображения значительно быстрее. Кроме того, выяснилось, что при подмене текстового запроса в ходе генерации модель создавала усредненное изображение на основе двух промптов.

Модель была представлена специалистами из Yandex Research в декабре 2024 года.

Демоверсия на Hugging Face

Препринт на arXiv

Репозиторий на GitHub

👤 Денис Кузнеделев

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source

Разработчик:

#Яндекс

Проект запущен:

2024

Контакты:

Сайт:

Страница на GitHub Pages

253

Последнее обновление:23.12.2024

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение

Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0