20 февраля прошел первый день конференции об искусственном интеллекте OpenTalks.AI. Состоялись две сессии — посвященные компьютерному зрению (далее — CV) и обработке естественного языка (далее — NLP). Спикеры разделились на две категории. Одни рассказывали об особенностях современных инструментов при разработке тех или иных решений, другие — о применении технологий в бизнесе. Именно об этом — в нашем репортаже с OpenTalks.AI.
Об актуальных ИИ-технологиях по определению объектов, прогнозированию их поведения и построению расширенных моделей (например, трехмерных структур на основе фотографий) рассказали Виктор Лемпицкий и Антон Конушин из компании Samsung, а также Артур Кузин из X5 Retail Group.
Стало понятно, почему разработчики в целом говорят о высоком пороге входа в разработку в области CV и ИИ в целом. В процессе возникает такое количество неочевидных препятствий и задач, что наскоком не решишь даже малую их часть. Многие задачи решаются с помощью разработанных ранее нейросетей. В итоге получается, что даже такую, казалось бы, банальную функцию как определение лица одновременно отрабатывают несколько CV-сетей: одна определяет объект и его границы, вторая идентифицирует его как лицо, третья анализирует, сравнивая с базой данных.
Определение лиц — один из главных кейсов CV для бизнеса, который называли спикеры. Руководитель службы компьютерного зрения и технологий ИИ компании Яндекс Александр Крайнов напомнил, что такое применение CV позволит в автоматическом режиме следить за соблюдением техники безопасности на опасных объектах и за состоянием водителей транспорта. Всего он назвал пять основных кейсов применения компьютерного зрения:
Основатель VisionLabs Александр Ханин подхватил рассказ коллеги и углубился в объяснение, как и зачем применяется технология распознавания лиц. В качестве примера он привел офисное здание и метро, где люди проходят через турникеты, просто заглядывая в камеру. Лицо служит им вместо пропуска (а в метро — и способом оплаты проезда), что экономит большую часть времени, особенно при сильном потоке людей.
Задача, которую мы решаем сейчас, — пытаемся из видео с людьми вытаскивать как можно больше полезной для бизнеса информации.
К такой информации Ольга отнесла уникальные особенности лица (id), пол, возраст и эмоции. Все эти характеристики позволят серьезно подтолкнуть развитие рекламного рынка, особенно в офлайне, предлагая контекстную рекламу в зависимости от информации о человеке, который попадает в поле зрения камер. Анализ их эмоций позволил бы проводить куда более точные маркетинговые исследования. Пока, правда, человек определяет эмоции все же точнее нейросети.
Директор компании Eora Роман Доронин рассказал о совсем уж специализированном кейсе применения технологий CV — об определении плагиата в сфере логотипов. На поверку оказалось, что эта многомиллионная область крайне сложно поддается четкой структуризации. Например, логотип может сильно напоминать известный бренд — Coca-Cola или Puma, — но машина пока не способна отследить такую ассоциативную связь. Основываясь на опыте работы в этой сфере, Роман привел четыре главных совета, когда нужно использовать ИИ:
На второй сессии принцип не изменился: одни спикеры говорили о разработке, другие — о применении технологии в бизнесе. Так, Валентин Малых из компании Huawei подробно остановился на NLP-модели BERT, которую Google представила в 2018 году и которая захватила рынок разработки NLP-решений. А Татьяна Шаврина из Сбербанка объяснила, как ИИ учится решать «человеческие» задачи — например, сдавать тесты ЕГЭ по русскому языку, где требуется не только использование лингвистических знаний, но и логические операции. В результате нейросети пока удалось набрать только 69 баллов из 100.
Каждый день можно придумывать новые способы применения технологий NLP и никогда эту тему не исчерпать.
Говоря о сферах применения NLP, Аркадий Сандлер отдельно упомянул LegalTech, где в некоторых случаях виртуальные ассистенты уже превзошли среднего юриста по качеству работы. Подробно остановился и на медицине. Рассказывая о поездке на одну из зарубежных конференций, он поделился инсайтом о том, что там уже перестали говорить про применение CV — с этим в целом и так все понятно, дело осталось за внедрением. Вместо этого как раз начали говорить об NLP и о том, как обработка текста и речи может помочь развивать медицину. Конкретных ответов пока нет.
Какого уровня достигли современные чатботы и голосовые ассистенты, на примере продемонстрировал Сергей Марков, директор по ИТ ООО «АктивБизнесКонсалт». Прямо со сцены он поговорил с чатботом, который якобы позвонил напомнить о задолженности. Бот звучал очень естественно, адекватно реагировал на нестандартные сценарии.
Сергей говорил невнятно, перебивал, шутливо отвечал — и каждый из сценариев голосовой бот отработал безошибочно. Так, он попросил уточнить «тысяча девятьсот лохматый» год рождения, внятной и при этом живой речью донес всю необходимую информацию. В некоторые моменты проскальзывала мысль, что на той стороне находится живой оператор, однако в повторяемых сценариях бота выдали абсолютно идентичные интонации.
Кто такие виртуальные ассистенты? Согласно классическому определению — интеллектуальные агенты, которые выполняют определенные задачи либо отвечают на вопросы или команды со стороны пользователей. Иногда это чатботы, но не обязательно, это могут быть и отдельные команды.
Николай говорил преимущественно о голосовых ассистентах и назвал несколько проблем, которые встают перед бизнесом при их использовании. В частности, это отсутствие единого технологического стандарта: если компании хотят использовать в своих виртуальных или технологических решениях несколько ассистентов — например, «Алису» Яндекса и Google Ассистента, — весь функционал придется прописывать для каждого из них.
Непонятно, будет ли решена эта проблема в будущем, но однозначно ассистенты будут развиваться с точки зрения мультимодальности. Если сейчас они преимущественно отвечают голосом на голосовые команды, то в будущем смогут представлять результаты в виде визуальной информации на экране или как-то еще.
Руководитель международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии» Университета ИТМО Дмитрий Муромцев представил результаты эксперимента с современными «русскоговорящими» голосовыми ассистентами. Они с коллегами по 25 метрикам сравнили качество распознавания голоса и ответов «Алисы» (Яндекс), Google Ассистента, «Олега» (Тинькофф-Банк) и ассистента Центра речевых технологий (ЦРТ).
Выдающегося результата не показал никто: какой-то бот лучше понимает сложные названия, а какой-то справляется с родами, склонениями и так далее. Тем не менее эксперимент позволил выявить общие моменты для технологии в целом. Например, практически все ассистенты пока плохо справляются с фоновыми шумами и посторонними звуками вроде мяуканья кошки — им предстоит научиться слышать и отделять команды пользователя от остальных звуков. Также современный технологический уровень развития ассистентов пока не позволяет им интерпретировать слова пользователя с точки зрения смысловой нагрузки.
Если говорить о перспективах практического применения, то не только в медицине наблюдается смещение внимания с компьютерного зрения на область обработки естественного языка. Сценарии CV уже по большей части понятны, и спикеры в этом смысле почти ничего нового не рассказали. Да, технология требует доработок, и подобные конференции в этом плане крайне полезны: разработчики обмениваются опытом, знаниями.
С NLP все не так просто. У бизнеса уже появились чатботы и голосовые ассистенты, которые можно использовать в собственных бизнес-кейсах (например, с помощью платформы Яндекс.Диалоги). Но нельзя сказать, что бизнес в них уверен. Егор Паюсов из компании Tikkurila (производитель лакокрасок) рассказал, с каким скрипом ему и его единомышленникам удалось убедить руководство пилотировать чатботов. Зато в результате повысилась эффективность и прибыльность компании, сократить штат операторов колл-центра и перейти с работы по модели 12/5 на модель 24/7. В 2020 году компания планирует запускать систему в филиалах других стран.
Ясно главное: технологиям ИИ — CV и NLP в частности — есть куда развиваться. По данным альманаха об искусственном интеллекте от OpenTalks.AI, к 2019 году Россия вошла в топ-20 стран по количеству научных публикаций об этой технологии, что можно назвать позитивной тенденцией. И судя по настрою выступавших на OpenTalks.AI, российские разработчики твердо намерены ее поддерживать.
Топ тенденций российского рынка ЦОД 2024 года
Ассоциация участников отрасли ЦОД
Тренды умных городов за 2024 год
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.