Ученые Института искусственного интеллекта «Сколтеха», МФТИ и MWS AI разработали метод Through the Looking Glass (TLG) для выявления нарушения здравого смысла на изображении с помощью искусственного интеллекта. Для этого предлагается использовать большую мультимодальную и NLI-модели (Natural Language Inference).
Мультимодальная модель применяется для описания изображения пятью атомарными фактами, а NLI — для вычисления семантического следования между каждой парой этих фактов. На основании полученных данных принимается решение о противоречии здравому смыслу.
Для тестов использовался датасет WHOOPS!, который содержит 100 пар изображений, сгенерированных Midjourney, DALL‑E и Stable Diffusion. Для валидации результатов был создан собственный набор данных WEIRD из 400 пар изображений.
Как утверждают разработчики, метод TLG превосходит более сложные и ресурсоемкие системы. Его точность оценивается в 87,5%.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.