Метод выявления краж моделей ИИ
PROWN (Probabilistically Robust Watermarking of Neural Networks) — это метод выявления краж моделей искусственного интеллекта, доступных по API. Выложенный в открытый доступ протокол основан на создании триггерного набора данных и системы знаков, которые позволяют доказать, что модель была скомпрометирована.
Триггеры встраиваются в модель и сохраняются в процессе любых ее изменений. Увидеть их позволяет установленная процедура проверки: в ответ на нее модель ведет себя определенным образом. Метод не зависит от модели, не требует дополнительного ее обучения и не накладывает никаких ограничений на размер набора триггеров. По мнению создателей, он может быть применен к любой модели без ущерба для производительности и с минимальными вычислительными затратами.
PROWN позволяет дать вероятностную гарантию на переносимость поведения, то есть обозначить степень вероятности сохранения свойств «защиты» в каждом конкретном случае, подчеркивают разработчики.
Метод был представлен исследователями из Института AIRI, Института системного программирования РАН и «Сколтеха» в мае 2024 года.
Статья в сборнике материалов конференции IJCAI 2024
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.