Нейросеть
Выложенная в открытый доступ модель генерирует изображение по заданному пользователем тексту. Switti (Scale-Wise Transformer for Text-to-Image Synthesis) представляет собой авторегрессионную модель на основе архитектуры STAR. Изображение разбивается на разные уровни разрешений, от содержащих общую семантику нижних ко все более детализированным верхним. Полученная картинка формируется посредством суммирования всех разрешений.
В Switti в отличие от предыдущих подобных моделей все разрешения генерируются независимо друг от друга, что, по оценкам разработчиков, позволило ускорить нейросеть на 20–30%. Кроме того, исследователи добавили в модель дополнительные нормализационные слои, позволившие стабилизировать ее обучение на датасете из более чем 100 млн изображений.
Проведенная исследователями оценка (как с помощью метрик и моделей вознаграждений, так и пользовательских отзывов) показала, что по качеству Switti сравнима с диффузионными моделями (в частности, Stable Diffusion), но генерирует изображения значительно быстрее. Кроме того, выяснилось, что при подмене текстового запроса в ходе генерации модель создавала усредненное изображение на основе двух промптов.
Модель была представлена специалистами из Yandex Research в декабре 2024 года.
#искусственный_интеллект#генеративный_ИИ#нейросети#машинное_обучение#open_source
Разработчик:Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.