
RCDINO
Мультимодальная модель для обнаружения 3D-объектов
RCDINO (Radar-Camera DINO) может быть применима в сферах беспилотного транспорта и робототехники при обнаружении трехмерных объектов с помощью данных радара.
Архитектура модели базируется на RCTrans и состоит из пяти компонентов. Детали изображения выделяются и описываются с помощью кодировщика и предобученной нейросети DINOv2, еще два кодировщика преобразуют облака точек, полученные от радаров с разреженными (Sparse) и плотными (Dense) антенными решетками соответственно, декодер обрабатывает данные с камеры и радара и классифицирует окружающие объекты.

RCDINO обучена на датасете nuScenes, содержащем аннотированные данные об участниках дорожного движения (машинах, пешеходах и т. д.), а также их состоянии (передвигается или неподвижен).
Модель RCDINO была представлена исследователями из МФТИ в июне 2025 года. Доступна как открытое ПО.

