ГлавнаяЛента

НИУ ВШЭ

«Сбер» и НИУ ВШЭ разработали новый метод для работы с несбалансированными данными

17 марта, 13:59|
248

Ученые из НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера создали новый геометрический метод расширения данных — Simplicial SMOTE (Synthetic Minority Oversampling Technique). Этот метод призван улучшить процесс обучения искусственного интеллекта на несбалансированных данных, где существует значительное количество примеров одного класса, но недостаточное количество примеров другого.

Исследователи утверждают, что стандартные подходы, такие как случайное дублирование или глобальное семплирование, зачастую приводят к созданию выборок низкого качества или недостаточно хорошо моделируют редкие классы данных. Simplicial SMOTE позволяет точнее воспроизводить сложные топологические структуры данных и повышает эффективность классификаторов на несбалансированных наборах данных.

Ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ пояснил, что созданный метод «особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания».

Исследователи считают, что Simplicial SMOTE можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности.

Подробнее

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0