Новый метод основан на дистилляции знаний и используется в ситуациях, когда злоумышленник не имеет доступа к внутренней структуре модели, но может взаимодействовать с ее интерфейсами.
GLiRA позволяет исследовать поведение целевой модели и воспроизвести его при создании теневых моделей — систем, предназначенных для извлечения конфиденциальной информации и изучения принципов принятия решений оригинальной моделью.
Исследование состояло из двух этапов: сначала ученые проанализировали существующие методы дистилляции знаний между моделями, а затем адаптировали их для обучения теневых моделей. В ходе экспериментов GLiRA показал на 7% более высокую точность имитируемых атак по сравнению с ранее существующими методами.
Исследователи подчеркивают, что «анализ таких атак необходим для обнаружения слабых мест в современных нейросетях и разработки способов их защиты».
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.