ГлавнаяЛента

Репортажи

OpenTalks.AI: применение и перспективы CV и NLP в бизнесе

21 февраля 2020, 17:57|
4039

20 февраля прошел первый день конференции об искусственном интеллекте OpenTalks.AI. Состоялись две сессии — посвященные компьютерному зрению (далее — CV) и обработке естественного языка (далее — NLP). Спикеры разделились на две категории. Одни рассказывали об особенностях современных инструментов при разработке тех или иных решений, другие — о применении технологий в бизнесе. Именно об этом — в нашем репортаже с OpenTalks.AI.

CV: с точки зрения нейросети

Об актуальных ИИ-технологиях по определению объектов, прогнозированию их поведения и построению расширенных моделей (например, трехмерных структур на основе фотографий) рассказали Виктор Лемпицкий и Антон Конушин из компании Samsung, а также Артур Кузин из X5 Retail Group.

Стало понятно, почему разработчики в целом говорят о высоком пороге входа в разработку в области CV и ИИ в целом. В процессе возникает такое количество неочевидных препятствий и задач, что наскоком не решишь даже малую их часть. Многие задачи решаются с помощью разработанных ранее нейросетей. В итоге получается, что даже такую, казалось бы, банальную функцию как определение лица одновременно отрабатывают несколько CV-сетей: одна определяет объект и его границы, вторая идентифицирует его как лицо, третья анализирует, сравнивая с базой данных.

Определение лиц — один из главных кейсов CV для бизнеса, который называли спикеры. Руководитель службы компьютерного зрения и технологий ИИ компании Яндекс Александр Крайнов напомнил, что такое применение CV позволит в автоматическом режиме следить за соблюдением техники безопасности на опасных объектах и за состоянием водителей транспорта. Всего он назвал пять основных кейсов применения компьютерного зрения:

  • распознавание лиц;
  • поиск похожих изображений (например в онлайн-магазинах, когда пользователь хочет «похожую люстру» или «примерно такую же одежду»);
  • камеры в мобильных телефонах (где CV позволят в том числе получать качественные снимки в условиях недостаточного освещения);
  • беспилотники (где одно только определение сигнала светофора — большая и сложная задача, особенно в мегаполисах с большим количеством постороннего света вроде Лас-Вегаса);
  • баркоды, QR-коды (которые обретают новую жизнь, и максимум через год они будут использоваться при большей часть денежных онлайн-переводов).

Основатель VisionLabs Александр Ханин подхватил рассказ коллеги и углубился в объяснение, как и зачем применяется технология распознавания лиц. В качестве примера он привел офисное здание и метро, где люди проходят через турникеты, просто заглядывая в камеру. Лицо служит им вместо пропуска (а в метро — и способом оплаты проезда), что экономит большую часть времени, особенно при сильном потоке людей.

Задача, которую мы решаем сейчас, — пытаемся из видео с людьми вытаскивать как можно больше полезной для бизнеса информации.

Ольга Перепелкина
Ольга Перепелкина

директор по науке Neurodata Lab

К такой информации Ольга отнесла уникальные особенности лица (id), пол, возраст и эмоции. Все эти характеристики позволят серьезно подтолкнуть развитие рекламного рынка, особенно в офлайне, предлагая контекстную рекламу в зависимости от информации о человеке, который попадает в поле зрения камер. Анализ их эмоций позволил бы проводить куда более точные маркетинговые исследования. Пока, правда, человек определяет эмоции все же точнее нейросети.

Директор компании Eora Роман Доронин рассказал о совсем уж специализированном кейсе применения технологий CV — об определении плагиата в сфере логотипов. На поверку оказалось, что эта многомиллионная область крайне сложно поддается четкой структуризации. Например, логотип может сильно напоминать известный бренд — Coca-Cola или Puma, — но машина пока не способна отследить такую ассоциативную связь. Основываясь на опыте работы в этой сфере, Роман привел четыре главных совета, когда нужно использовать ИИ:

  • когда человек перестает быть эффективным;
  • когда есть сложные задачи с комплексными проблемами и эти проблемы нельзя решить поодиночке;
  • когда есть много качественных, размеченных данных;
  • когда есть готовность решать проблему постепенно, в несколько итераций.


NLP: говоря простым языком

На второй сессии принцип не изменился: одни спикеры говорили о разработке, другие — о применении технологии в бизнесе. Так, Валентин Малых из компании Huawei подробно остановился на NLP-модели BERT, которую Google представила в 2018 году и которая захватила рынок разработки NLP-решений. А Татьяна Шаврина из Сбербанка объяснила, как ИИ учится решать «человеческие» задачи — например, сдавать тесты ЕГЭ по русскому языку, где требуется не только использование лингвистических знаний, но и логические операции. В результате нейросети пока удалось набрать только 69 баллов из 100.

Каждый день можно придумывать новые способы применения технологий NLP и никогда эту тему не исчерпать.

Аркадий Сандлер
Аркадий Сандлер

директор центра искусственного интеллекта МТС

Говоря о сферах применения NLP, Аркадий Сандлер отдельно упомянул LegalTech, где в некоторых случаях виртуальные ассистенты уже превзошли среднего юриста по качеству работы. Подробно остановился и на медицине. Рассказывая о поездке на одну из зарубежных конференций, он поделился инсайтом о том, что там уже перестали говорить про применение CV — с этим в целом и так все понятно, дело осталось за внедрением. Вместо этого как раз начали говорить об NLP и о том, как обработка текста и речи может помочь развивать медицину. Конкретных ответов пока нет.

Какого уровня достигли современные чатботы и голосовые ассистенты, на примере продемонстрировал Сергей Марков, директор по ИТ ООО «АктивБизнесКонсалт». Прямо со сцены он поговорил с чатботом, который якобы позвонил напомнить о задолженности. Бот звучал очень естественно, адекватно реагировал на нестандартные сценарии.

Сергей говорил невнятно, перебивал, шутливо отвечал — и каждый из сценариев голосовой бот отработал безошибочно. Так, он попросил уточнить «тысяча девятьсот лохматый» год рождения, внятной и при этом живой речью донес всю необходимую информацию. В некоторые моменты проскальзывала мысль, что на той стороне находится живой оператор, однако в повторяемых сценариях бота выдали абсолютно идентичные интонации.


NLP: два слова про голосовые ассистенты

Кто такие виртуальные ассистенты? Согласно классическому определению — интеллектуальные агенты, которые выполняют определенные задачи либо отвечают на вопросы или команды со стороны пользователей. Иногда это чатботы, но не обязательно, это могут быть и отдельные команды.

Николай Тржаскал
Николай Тржаскал

директор по развитию Центра искусственного интеллекта МТС

Николай говорил преимущественно о голосовых ассистентах и назвал несколько проблем, которые встают перед бизнесом при их использовании. В частности, это отсутствие единого технологического стандарта: если компании хотят использовать в своих виртуальных или технологических решениях несколько ассистентов — например, «Алису» Яндекса и Google Ассистента, — весь функционал придется прописывать для каждого из них.

Непонятно, будет ли решена эта проблема в будущем, но однозначно ассистенты будут развиваться с точки зрения мультимодальности. Если сейчас они преимущественно отвечают голосом на голосовые команды, то в будущем смогут представлять результаты в виде визуальной информации на экране или как-то еще.

Руководитель международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии» Университета ИТМО Дмитрий Муромцев представил результаты эксперимента с современными «русскоговорящими» голосовыми ассистентами. Они с коллегами по 25 метрикам сравнили качество распознавания голоса и ответов «Алисы» (Яндекс), Google Ассистента, «Олега» (Тинькофф-Банк) и ассистента Центра речевых технологий (ЦРТ).

Выдающегося результата не показал никто: какой-то бот лучше понимает сложные названия, а какой-то справляется с родами, склонениями и так далее. Тем не менее эксперимент позволил выявить общие моменты для технологии в целом. Например, практически все ассистенты пока плохо справляются с фоновыми шумами и посторонними звуками вроде мяуканья кошки — им предстоит научиться слышать и отделять команды пользователя от остальных звуков. Также современный технологический уровень развития ассистентов пока не позволяет им интерпретировать слова пользователя с точки зрения смысловой нагрузки. 


Взгляд в будущее

Если говорить о перспективах практического применения, то не только в медицине наблюдается смещение внимания с компьютерного зрения на область обработки естественного языка. Сценарии CV уже по большей части понятны, и спикеры в этом смысле почти ничего нового не рассказали. Да, технология требует доработок, и подобные конференции в этом плане крайне полезны: разработчики обмениваются опытом, знаниями.

С NLP все не так просто. У бизнеса уже появились чатботы и голосовые ассистенты, которые можно использовать в собственных бизнес-кейсах (например, с помощью платформы Яндекс.Диалоги). Но нельзя сказать, что бизнес в них уверен. Егор Паюсов из компании Tikkurila (производитель лакокрасок) рассказал, с каким скрипом ему и его единомышленникам удалось убедить руководство пилотировать чатботов. Зато в результате повысилась эффективность и прибыльность компании, сократить штат операторов колл-центра и перейти с работы по модели 12/5 на модель 24/7. В 2020 году компания планирует запускать систему в филиалах других стран.

Ясно главное: технологиям ИИ — CV и NLP в частности — есть куда развиваться. По данным альманаха об искусственном интеллекте от OpenTalks.AI, к 2019 году Россия вошла в топ-20 стран по количеству научных публикаций об этой технологии, что можно назвать позитивной тенденцией. И судя по настрою выступавших на OpenTalks.AI, российские разработчики твердо намерены ее поддерживать.

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0