
Модель генерации видео
Модель предназначена для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также создания аудиоряда для сгенерированного видеоролика. У Kandinsky 4.0 Video существует четыре варианта.
Использующая латентную диффузию (где работа ведется не с текстом, а их эмбеддингами — векторными или латентными представлениями) модель Kandinsky 4.0 T2V размером в 5 млрд параметров генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон. Она состоит их трех компонентов: вариационного автокодировщика (VAE) CogVideo, позволяющего сжимать размер видео до восьми раз, текстового эмбеддера T5, преобразующего тексты в их векторные представления, и, собственно основной нейросети.
Для создания версии Kandinsky 4.0 T2V Flash применяется метод LADD (Latent Adversarial Diffusion Distillation), при котором модель проходит дообучение в формате GAN — совместном обучении диффузионного генератора и дискриминатора, оценивающего качество генерации. Обученная таким образом модель может создавать видео в качестве 480p на восьми видеокартах NVIDIA TESLA H100 за 11 секунд, а в HD-формате — за 22 секунды.
Kandinsky 4.0 I2V позволяет создавать видео по стартовому кадру и тексту, а Kandinsky 4.0 V2A генерирует к видео синхронный аудиоряд.
Модель Kandinsky 4.0 Video была представлена Лабораторией искусственного интеллекта Сбербанка в декабре 2024 года.
В июне 2025 года на конференции GigaConf была представлена новая версия модели — Kandinsky 4.1 Video. Она генерирует видеоряд продолжительностью до 10 секунд в разрешении SD (720×576) или HD (1280×720) по любому текстовому описанию или произвольному стартовому кадру.
Диффузионный трансформер с помощью метода тонкой настройки с учителем (Supervised Fine-Tuning, SFT) дообучили на подготовленных экспертами данных, что позволило повысить уровень художественной выразительности, композиции видео и кинематографичности визуального ряда. Применения методов дистилляции позволило ускорить время генерации видео более чем в три раза по сравнению с исходным вариантом, при этом в ряде сценариев качество генерации сохранилось или даже улучшилось.
Демоверсия Kandinsky 4.0 T2V Flash на Hugging Face
Примеры генераций Kandinsky 4.0 V2A на «Яндекс.Диске»
#искусственный_интеллект#генеративный_ИИ#нейросети#машинное_обучение#open_source
Разработчик:Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.