Kandinsky Video на ICT.Moscow

ИБ В РОССИИ: БАЗА ЗНАНИЙИБ В РОССИИ: БАЗА ЗНАНИЙ

1146

Kandinsky Video

Модель генерации видео

Описание:

Модель предназначена для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также создания аудиоряда для сгенерированного видеоролика.

У версии Kandinsky 4.0 Video существует четыре варианта.

Использующая латентную диффузию (где работа ведется не с текстом, а их эмбеддингами — векторными или латентными представлениями) модель Kandinsky 4.0 T2V размером в 5 млрд параметров генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280×720) с разным соотношением сторон. Она состоит их трех компонентов: вариационного автокодировщика (VAE) CogVideo, позволяющего сжимать размер видео до восьми раз, текстового эмбеддера T5, преобразующего тексты в их векторные представления, и, собственно основной нейросети.

Для создания версии Kandinsky 4.0 T2V Flash применяется метод LADD (Latent Adversarial Diffusion Distillation), при котором модель проходит дообучение в формате GAN — совместном обучении диффузионного генератора и дискриминатора, оценивающего качество генерации. Обученная таким образом модель может создавать видео в качестве 480p на восьми видеокартах NVIDIA TESLA H100 за 11 секунд, а в HD-формате — за 22 секунды.

Kandinsky 4.0 I2V позволяет создавать видео по стартовому кадру и тексту, а Kandinsky 4.0 V2A генерирует к видео синхронный аудиоряд.

Модель Kandinsky 4.0 Video была представлена Лабораторией искусственного интеллекта Сбербанка в декабре 2024 года.

В июне 2025 года на конференции GigaConf была представлена версия Kandinsky 4.1 Video. Она генерирует видеоряд продолжительностью до 10 секунд в разрешении SD (720×576) или HD (1280×720) по любому текстовому описанию или произвольному стартовому кадру.

Диффузионный трансформер с помощью метода тонкой настройки с учителем (Supervised Fine-Tuning, SFT) дообучили на подготовленных экспертами данных, что позволило повысить уровень художественной выразительности, композиции видео и кинематографичности визуального ряда. Применения методов дистилляции позволило ускорить время генерации видео более чем в три раза по сравнению с исходным вариантом, при этом в ряде сценариев качество генерации сохранилось или даже улучшилось.

В сентябре 2025 года разработчики представили модель Kandinsky 5.0 Video T2V Lite размером в 2 млрд параметров. В качестве эмбеддеров используются модели Qwen2.5-VL и CLIP, VAE — HunyuanVideo 3D VAE. По состоянию на ноябрь 2025 года существует четыре варианта модели для различных сценариев: предобученная для дальнейшей тонкой настройки, дистиллированная (настроенная с моделью-учителем) для быстрой генерации без классификатора, дистиллированная c помощью LADD для быстрой генерации без потери качества и прошедшая SFT. Для каждого из вариантов существуют две версии для генерации видео по 5 и 10 секунд соответственно. Частично доступна как открытое ПО.

Версии модели:

Репозитории Kandinsky 4.0 Video на GitVerse и GitHub

Репозитории Kandinsky 5.0 Video на GitVerse и GitHub

Примеры генераций Kandinsky 4.0 V2A на «Яндекс.Диске», а также текстовые обзоры Kandinsky 4.0 Video и Kandinsky 5.0 Video Lite на Habr

👤 Денис Димитров

Участвует в спецпроектах ICT.Moscow:

Смотреть

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source

Разработчик:

#Сбербанк

Проект запущен:

2024

Последнее обновление:14.11.2025

Материалы о разработчике

15:55

Нейросеть GigaChat сдала экзамены в РАНХиГС по направлениям «Экономика и финансы» и «Финансовая грамотность»

Сбербанк

14:33

«Сбер» представил ИИ-помощников для пользователей и бизнеса

Коммерсант

3 дек. 13:05

ICT.Moscow: 120 новых решений для ИИ-разработки представлено в России в 2025 году

ICT.Moscow

25 ноя. 15:38

«Сбер»: развитие ИИ потребует 45 трлн руб. инвестиций в энергетику за 16 лет

Reuters

24 ноя. 12:08

В AIRI разработали фреймворк Maestro для создания и оркестрации ИИ-агентов

AIRI

смотреть еще

Другие проекты разработчика:

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

DRAGON

Бенчмарк для RAG-систем

#бенчмарк #искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Сбербанк #Университет_ИТМО

Evolution Notebooks

Сервис для работы специалистов по машинному обучению

#искусственный_интеллект #нейросети #машинное_обучение #разработка #Cloud #Сбербанк

Evolution ML Finetuning

Сервис для тонкой настройки LLM

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #облачный_сервис #Cloud #Сбербанк

смотреть еще

Похожие проекты:

A-Vision

Большая мультимодальная модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

A-Vibe

Большая языковая модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

Бизнес.Локатор

ИИ-сервис для малого бизнеса

#искусственный_интеллект #нейросети #машинное_обучение #геоинформационные_системы #бизнес_аналитика #Билайн

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение