logo SG DETR

SG DETR

Модель компьютерного зрения

Описание:

Задачей модели SG DETR (Saliency-Guided DETR) является поиск по текстовому запросу требуемого пользователю момента в видеоролике.

В основе модели лежит гибридная архитектура, которая включает в себя видеокодировщик и детектор на основе DETR (Detection Transformer). К последнему был добавлен модуль — механизм перекрестного внимания (Сross‑Attention), который улучшает качество сопоставления признаков видеоклипов и пользовательских запросов.

Нейросеть была обучена на специально созданном для нее с помощью нового метода автоматической разметки датасете InterVid-MR.

Модель SG DETR была представлена разработчиками из компании SberDevices в октябре 2024 года. По их заявлениям, в будущем планируется выложить модель в открытый доступ.


Препринт на arXiv


👤 Александр Гордеев

👤 Максим Купрашевич

👤 Ирина Толстых


logo SG DETR
Проект запущен:
2024
Последнее обновление:19.05.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.