20 февраля прошел первый день конференции об искусственном интеллекте OpenTalks.AI. Состоялись две сессии — посвященные компьютерному зрению (далее — CV) и обработке естественного языка (далее — NLP). Спикеры разделились на две категории. Одни рассказывали об особенностях современных инструментов при разработке тех или иных решений, другие — о применении технологий в бизнесе. Именно об этом — в нашем репортаже с OpenTalks.AI.
Об актуальных ИИ-технологиях по определению объектов, прогнозированию их поведения и построению расширенных моделей (например, трехмерных структур на основе фотографий) рассказали Виктор Лемпицкий и Антон Конушин из компании Samsung, а также Артур Кузин из X5 Retail Group.
Стало понятно, почему разработчики в целом говорят о высоком пороге входа в разработку в области CV и ИИ в целом. В процессе возникает такое количество неочевидных препятствий и задач, что наскоком не решишь даже малую их часть. Многие задачи решаются с помощью разработанных ранее нейросетей. В итоге получается, что даже такую, казалось бы, банальную функцию как определение лица одновременно отрабатывают несколько CV-сетей: одна определяет объект и его границы, вторая идентифицирует его как лицо, третья анализирует, сравнивая с базой данных.
Определение лиц — один из главных кейсов CV для бизнеса, который называли спикеры. Руководитель службы компьютерного зрения и технологий ИИ компании Яндекс Александр Крайнов напомнил, что такое применение CV позволит в автоматическом режиме следить за соблюдением техники безопасности на опасных объектах и за состоянием водителей транспорта. Всего он назвал пять основных кейсов применения компьютерного зрения:
Основатель VisionLabs Александр Ханин подхватил рассказ коллеги и углубился в объяснение, как и зачем применяется технология распознавания лиц. В качестве примера он привел офисное здание и метро, где люди проходят через турникеты, просто заглядывая в камеру. Лицо служит им вместо пропуска (а в метро — и способом оплаты проезда), что экономит большую часть времени, особенно при сильном потоке людей.
Задача, которую мы решаем сейчас, — пытаемся из видео с людьми вытаскивать как можно больше полезной для бизнеса информации.
К такой информации Ольга отнесла уникальные особенности лица (id), пол, возраст и эмоции. Все эти характеристики позволят серьезно подтолкнуть развитие рекламного рынка, особенно в офлайне, предлагая контекстную рекламу в зависимости от информации о человеке, который попадает в поле зрения камер. Анализ их эмоций позволил бы проводить куда более точные маркетинговые исследования. Пока, правда, человек определяет эмоции все же точнее нейросети.
Директор компании Eora Роман Доронин рассказал о совсем уж специализированном кейсе применения технологий CV — об определении плагиата в сфере логотипов. На поверку оказалось, что эта многомиллионная область крайне сложно поддается четкой структуризации. Например, логотип может сильно напоминать известный бренд — Coca-Cola или Puma, — но машина пока не способна отследить такую ассоциативную связь. Основываясь на опыте работы в этой сфере, Роман привел четыре главных совета, когда нужно использовать ИИ:
На второй сессии принцип не изменился: одни спикеры говорили о разработке, другие — о применении технологии в бизнесе. Так, Валентин Малых из компании Huawei подробно остановился на NLP-модели BERT, которую Google представила в 2018 году и которая захватила рынок разработки NLP-решений. А Татьяна Шаврина из Сбербанка объяснила, как ИИ учится решать «человеческие» задачи — например, сдавать тесты ЕГЭ по русскому языку, где требуется не только использование лингвистических знаний, но и логические операции. В результате нейросети пока удалось набрать только 69 баллов из 100.
Каждый день можно придумывать новые способы применения технологий NLP и никогда эту тему не исчерпать.
Говоря о сферах применения NLP, Аркадий Сандлер отдельно упомянул LegalTech, где в некоторых случаях виртуальные ассистенты уже превзошли среднего юриста по качеству работы. Подробно остановился и на медицине. Рассказывая о поездке на одну из зарубежных конференций, он поделился инсайтом о том, что там уже перестали говорить про применение CV — с этим в целом и так все понятно, дело осталось за внедрением. Вместо этого как раз начали говорить об NLP и о том, как обработка текста и речи может помочь развивать медицину. Конкретных ответов пока нет.
Какого уровня достигли современные чатботы и голосовые ассистенты, на примере продемонстрировал Сергей Марков, директор по ИТ ООО «АктивБизнесКонсалт». Прямо со сцены он поговорил с чатботом, который якобы позвонил напомнить о задолженности. Бот звучал очень естественно, адекватно реагировал на нестандартные сценарии.
Сергей говорил невнятно, перебивал, шутливо отвечал — и каждый из сценариев голосовой бот отработал безошибочно. Так, он попросил уточнить «тысяча девятьсот лохматый» год рождения, внятной и при этом живой речью донес всю необходимую информацию. В некоторые моменты проскальзывала мысль, что на той стороне находится живой оператор, однако в повторяемых сценариях бота выдали абсолютно идентичные интонации.
Кто такие виртуальные ассистенты? Согласно классическому определению — интеллектуальные агенты, которые выполняют определенные задачи либо отвечают на вопросы или команды со стороны пользователей. Иногда это чатботы, но не обязательно, это могут быть и отдельные команды.
Николай говорил преимущественно о голосовых ассистентах и назвал несколько проблем, которые встают перед бизнесом при их использовании. В частности, это отсутствие единого технологического стандарта: если компании хотят использовать в своих виртуальных или технологических решениях несколько ассистентов — например, «Алису» Яндекса и Google Ассистента, — весь функционал придется прописывать для каждого из них.
Непонятно, будет ли решена эта проблема в будущем, но однозначно ассистенты будут развиваться с точки зрения мультимодальности. Если сейчас они преимущественно отвечают голосом на голосовые команды, то в будущем смогут представлять результаты в виде визуальной информации на экране или как-то еще.
Руководитель международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии» Университета ИТМО Дмитрий Муромцев представил результаты эксперимента с современными «русскоговорящими» голосовыми ассистентами. Они с коллегами по 25 метрикам сравнили качество распознавания голоса и ответов «Алисы» (Яндекс), Google Ассистента, «Олега» (Тинькофф-Банк) и ассистента Центра речевых технологий (ЦРТ).
Выдающегося результата не показал никто: какой-то бот лучше понимает сложные названия, а какой-то справляется с родами, склонениями и так далее. Тем не менее эксперимент позволил выявить общие моменты для технологии в целом. Например, практически все ассистенты пока плохо справляются с фоновыми шумами и посторонними звуками вроде мяуканья кошки — им предстоит научиться слышать и отделять команды пользователя от остальных звуков. Также современный технологический уровень развития ассистентов пока не позволяет им интерпретировать слова пользователя с точки зрения смысловой нагрузки.
Если говорить о перспективах практического применения, то не только в медицине наблюдается смещение внимания с компьютерного зрения на область обработки естественного языка. Сценарии CV уже по большей части понятны, и спикеры в этом смысле почти ничего нового не рассказали. Да, технология требует доработок, и подобные конференции в этом плане крайне полезны: разработчики обмениваются опытом, знаниями.
С NLP все не так просто. У бизнеса уже появились чатботы и голосовые ассистенты, которые можно использовать в собственных бизнес-кейсах (например, с помощью платформы Яндекс.Диалоги). Но нельзя сказать, что бизнес в них уверен. Егор Паюсов из компании Tikkurila (производитель лакокрасок) рассказал, с каким скрипом ему и его единомышленникам удалось убедить руководство пилотировать чатботов. Зато в результате повысилась эффективность и прибыльность компании, сократить штат операторов колл-центра и перейти с работы по модели 12/5 на модель 24/7. В 2020 году компания планирует запускать систему в филиалах других стран.
Ясно главное: технологиям ИИ — CV и NLP в частности — есть куда развиваться. По данным альманаха об искусственном интеллекте от OpenTalks.AI, к 2019 году Россия вошла в топ-20 стран по количеству научных публикаций об этой технологии, что можно назвать позитивной тенденцией. И судя по настрою выступавших на OpenTalks.AI, российские разработчики твердо намерены ее поддерживать.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.