ГлавнаяЛента

Статьи

ML с человеческим лицом: могут ли интерфейсы сделать машинное обучение понятным и доступным

10 сентября, 09:00|
3115

В последнее время популярность и проникновение искусственного интеллекта (ИИ) и машинного обучения (machine learning, ML) в различные бизнес-процессы активно растет. Об этом говорит, например, неуклонно увеличивающееся количество упоминаний технологии в СМИ, что указывает на рост популярности технологии. Это подтверждается и все большим числом новых практик применения: в базе ICT.Moscow только за 2021 год уже набралось более сотни.

Однако использованию ИИ в бизнес-процессах сопутствует довольно значимый стоп-фактор: чтобы эффективно пользоваться ML-алгоритмами для решения задач, требуется быть специалистом в сфере ML и ИИ. Эту проблему сейчас пытаются решить различными способами. Например, в Корнелльском университете в США разрабатывается платформа с подходом «трансферного обучения» (transfer learning), позволяющим использовать алгоритмы ML людям без специальных навыков. А дата-сайентист из KPMG Germany Филип Фоллет (Philip Vollet), в свою очередь, говорит о новом заметном тренде — развитии сегмента интерфейсов для машинного обучения (MLGUI, machine learning graphical user interface).

ICT.Moscow попытался разобраться, стоит ли сфера ИИ на пороге переломного момента, когда благодаря подобным специализированным интерфейсам ML действительно станет общедоступным инструментом и не будет требовать глубоких профильных знаний. Этот вопрос ICT.Moscow обсудил с ведущим автором научной статьи о «трансферном обучении» из Корнелльского университета Свати Мишрой, с российскими ML-разработчиками из Яндекса, Сбербанка, консалтинговой компании GlowByte и др. А разработчики, чьи решения сертифицированы для применения в системе здравоохранения России (в сфере, где ИИ является наиболее востребованным), рассказали о своей специфике применения и работы с ML-интерфейсами.

Зачем нужен MLGUI

Особенности функционирования MLGUI логическим образом вытекают из задач, которые решаются ML-алгоритмами. Филип Фоллет, дата-сайентист из сферы консалтинга, видит MLGUI как интерфейс аналитического приложения. В аспектах его позиции помог разобраться представитель российского консалтинга, руководитель практики Advanced Analytics GlowByte Consulting Павел Снурницын.

В консалтинговой практике Data Science относительно давно закрепился термин «Аналитические приложения». По сути, это то, что Фоллет называет MLGUI. То есть это приложение-интерфейс для конечного бизнес-пользователя, который работает с результатами моделей ML и продвинутой аналитики. Потребность в такого рода приложении возникает в бизнес-задаче, где ML или продвинутая аналитика используется как помощник человеку-эксперту, принимающему конечное решение.

Пользователь (User в аббревиатуре GUI) в данном случае — это не специалист по наукам о данных и машинному обучению, а бизнес-аналитик, эксперт или инженер, который принимает решения на основе помощника в виде ML/ИИ.

Павел Снурницын

руководитель практики Advanced Analytics GlowByte Consulting

На какие эффекты можно рассчитывать за счет такого подхода, поясняет начальник Управления интеграционных проектов и систем аутентификации Департамента информационных технологий (ДИТ) города Москвы Денис Жихарев.

Г-н Фоллет предлагает в некоторой степени переходить от низкого уровня программирования в машинном обучении к более высокому. По сути, его идея в том, чтобы создать подобие Scratch (упрощенной среды программирования — прим.) для машинного обучения. Несомненно, такой подход будет крайне полезен при подготовке специалистов (обучающая составляющая) и популяризации ML. Он позволит даже начинающим освоить базовые принципы ML, сделает машинное обучение более понятным для широкого круга.

Но стоит отметить, что мы не можем говорить о том, насколько этот подход будет востребован в профессиональной среде в ближайшей перспективе, так как модификация уже устоявшихся практик машинного обучения скорее будет воспринята профессиональным сообществом как усложнение, а не упрощение.

Важен контекст вопроса. В данном случае речь идет не о GUI для интерпретации результатов машинного обучения и контроля процессов (это отдельная категория ML с обширным инструментарием и наработанными практиками), а о GUI для непосредственно процесса ML с целью его упрощения для разработчиков и исследователей.

Денис Жихарев

Начальник Управления интеграционных проектов и систем аутентификации ДИТ Москвы

Но что мешает неспециалисту в сфере ИИ и ML начать использовать машинное обучение для решения своих задач? По словам представителя Корнелльского университета в США Свати Мишры, есть один ключевой барьер, который может быть снят за счет реализации MLGUI.

Графические интерфейсы для систем машинного обучения, — безусловно, важный аспект, позволяющий сделать ИИ доступным для не экспертов в этой области. Причина в том, что современные производительные ИИ-системы управляются данными, и визуализация потока данных помогает понять, как именно ИИ принимает решение, позволяет на него положиться и настроить.

Умение программировать сегодня один из главных навыков, позволяющих создавать ИИ-системы. Но давайте посмотрим правде в глаза, компьютерные языки выучить непросто. Требуется серьезная мотивация и много усилий, чтобы научиться программировать и в конечном итоге внедрить ИИ в свои рабочие процессы. Графический интерфейс может снять этот барьер, давая пользователю возможность понимать и строить определенные ИИ-модели, полезные для его задач.

Свати Мишра

докторант кафедры вычислительной техники и информатики Корнелльского университета (США)

В сегменте машинного обучения важно различать два направления, или стека: разработки (обучения) и эксплуатации. Руководитель ML-сервисов Яндекс.Облака Игорь Кураленок на схеме показал, какие уровни работы с машинным обучением, определяющие наличие того или иного MLGUI, могут быть в каждом из направлений.

* Эксперт подчеркивает, что это не устоявшаяся категоризация и общепринятые стандарты в области ML (а следовательно и MLGUI) на данный момент отсутствуют.

Чтобы разобраться, где в этой логике появляется конечный пользователь, необходимо также понять весь жизненный цикл модели машинного обучения. Коротко его описывает Павел Снурницын из GlowByte Consulting и поясняет, кто является основными «пользователями» на каждом из этапов.

Таким образом, конечный пользователь «подключается» к работе с машинным обучением на последнем — четвертом этапе. И работать он будет, исходя из первой схемы, с MLOps и инструментами контроля алгоритмов машинного обучения на производстве. Однако здесь Игорь Кураленок видит существенную проблему.

Категории MLOps и инструментов контроля — довольно объемная область, которая пока только изучается. Каждый разработчик и каждая компания по-своему решают проблемы, возникающие на этом этапе: деградация модели, настройка мониторингов, версионирование, процесс вывода на производства и так далее. Проблема в том, что отсутствует стандартизация.

Игорь Кураленок

руководитель ML-сервисов Яндекс.Облака

Непростые задачи для сложной технологии

Прежде чем говорить о перспективах стандартизации сферы ML, включая сегмент MLGUI, необходимо понять, какие именно задачи решает интерфейс для работы с машинным обучением и в чем его отличия от интерфейсов программ, не использующих ML-алгоритмы. Руководитель группы ML Systems Яндекса Станислав Кириллов сразу предостерегает: задачи, возникающие на первых этапах жизненного цикла ML, с помощью GUI в принципе не решаются.

Есть инструменты для разного уровня погружения в детали обучения. Собрать свой первый процесс машинного обучения по инструкции и примерам из документации может почти любой человек, если он смог подготовить данные.

Но в машинном обучении есть две очень сложные задачи. Первая — понять, правда ли в конкретном случае нужна машинно обученная модель, как она будет решать задачу и как вы убедитесь, чтобы на практике все будет работать корректно. Вторая задача — найти, очистить и подготовить данные, пригодные для обучения ML-моделей.

Эти две сложные проблемы не решаются интерфейсами. Само обучение моделей требует базового понимания того, как именно машинное обучение может помочь вам в вашей задаче — например, вы должны понимать, что такое метрики качества, куда положить данные и этого уже достаточно для решения задач в стиле AutoML.

Станислав Кириллов

руководитель группы ML Systems Яндекса

В таком случае, какие задачи все же позволяют решить MLGUI?

У интерфейса две основные функции: первая — просмотр, вторая — редактирование и создание. Первая задача сравнительно простая, у нас может быть интерфейс для редактирования исходного языка разметки — «просмотрщик». Такие GUI действительно есть, мы можем любую архитектуру нейронной сети визуализировать. Нейросеть можно представить в виде вычислительного графа, и такая визуализация сейчас есть: например, визуализатор графа в TensorBoard (на скриншоте ниже — прим.).

Второй момент — редактирование или создание, и здесь все сложнее. Какого-то простого редактора, как Word для текста, сейчас нет. Например, если мы редактируем код сайта, то на выходе получаем то, что видит посетитель, но не то, что видит программист. Примерно такая же ситуация с созданием и редактированием нейронных сетей.

Алексей Климов

технический лидер по машинному обучению SberCloud

Пример визуализации графа. Источник: Jonathan Hui, GitHub

Эксперт уточняет, что визуализация графа сложной нейросети может быть непонятной даже для ML-специалистов, не говоря уже о конечных пользователях: например, будет неясно, какие задачи выполняет какой-то из алгоритмов ML. Однако обычно с помощью GUI визуализируются более простые архитектуры нейросетей, и этот инструмент уже доступен неспециалистам в области искусственного интеллекта.

Если мы берем типовые задачи машинного обучения, например просмотр метрики, этот интерфейс понятен. Мы видим, что в коде рабочей нейронной сети растет метрика — качество модели увеличивается. Линия растет, как на обычном линейном графике. В простых архитектурах нейросетей видно, как протекает процесс.

Вообще, в машинном обучении визуализация «график» нужна для того, чтобы понять, как работают внутренние методы. Когда мы видим большую таблицу, это не очень понятно, а когда видим ее визуальное представление и распределение — намного удобнее. Например, сеть компьютерного зрения осуществляет детекцию тех или иных объектов, и мы можем посмотреть, на что именно она обращает внимание.

Алексей Климов

технический лидер по машинному обучению SberCloud

Особенности работы внутренних методов машинного обучения как раз и определяют ключевые отличия MLGUI от интерфейсов программ без применения ML. Филип Фоллет из KPMG Germany к таким отличиям относит необходимость учитывать большее количество переменных, а также изменчивость датасетов и алгоритмов с течением времени. Собеседники ICT.Moscow с этим тезисом согласны.

Да, это правда важные задачи, и полностью готовых инструментов пока нет, особенно в части мониторинга качества моделей в реальном времени для оперативного принятия решения в случае заметных деградаций. Мне кажется, это станет одной из горячих тем в ближайшее время.

Другой важной задачей я считаю создание систем, повышающих связность разных процессов и задач машинного обучения, то есть систем, которые позволяют легко понять, на каких данных и с какими параметрами обучалась модель, как она себя вела в экспериментах в продукте и в какой момент она была списана и на что была заменена.

Станислав Кириллов

руководитель группы ML Systems Яндекса

Иными словами, эксперт уверен, что MLGUI так или иначе должен учитывать все этапы жизненного цикла ML-разработки, представленные на схеме выше. Это логично с учетом того, что деградация ML-модели возвращает пользователя к первому этапу: подготовке нового датасета и обновлению функциональности. Причем неспециалисту необходимо знать, в какой именно момент ML-алгоритмы перестают выдавать релевантный результат, а значит, интерфейс должен учитывать вовремя об этом сообщить.

То есть важной составляющей процессов в операционализации MLGUI является то, что триггером пересборки приложения является не только инициатива разработчика, как в классическом случае, но также само приложение. Например, модель внутри него может понять, что окружающая среда и условия применения модели изменились и необходимо запустить более сложный процесс переобучения, и потребуются новые данные извне самого приложения.

Конечно, нужно много визуализаций и графиков, чтобы дать пользователю возможность проанализировать и понять, что ML-модель ему предлагает сделать и почему она это предлагает. Но только графиков и визуализаций недостаточно, иначе хватило бы просто BI-инструмента. MLGUI-приложение должно еще иметь встроенные возможности по запуску циклов обратной связи, чтобы пользователь посмотрел на результат, внес свои экспертные корректировки, поменял параметры, запустил пересчет и получил новый результат и так далее, пока он не будет удовлетворен качеством предлагаемых решений и не пустит эти решение дальше в бизнес-процесс.

Павел Снурницын

руководитель практики Advanced Analytics GlowByte Consulting

Нельзя утверждать, что обозначенная задача сейчас эффективно решается с помощью MLGUI. А значит, пока сохраняются стоп-факторы, сдерживающие внедрение систем машинного обучения в бизнес-процессы.

Когда мы говорим про внедрение, блокирующими факторами являются, в первую очередь, неготовность тех систем, в которые встраивается машинное обучение, к существованию с такими модулями. Обученную «по кнопке» модель нужно программно встроить в систему. Следующий стоп-фактор — отсутствие или недостаточная сформулированность внятных продуктовых метрик качества сервиса или процесса, в которую встраивается модель.

Дальше начинаются проблемы со спецификой ML. Это мониторинг качества моделей, которые уже работают в бизнес-процессах на предмет деградации качества из-за, например, сезонных эффектов, а также визуализация таких процессов. Затем идут проблемы машинного обучения: например, мониторинг качества обученных моделей и сравнение их метрик для простого принятия решения о том, достаточно ли хороша новая модель.

Станислав Кириллов

руководитель группы ML Systems Яндекса

От раздробленности к единым стандартам

Руководитель ML-сервисов Яндекс.Облака Игорь Кураленок называет еще одну значимую проблему в области MLGUI и ML в целом — отсутствие стандартизации. Этот тезис подтверждает и Свати Мишра из Корнелльского университета.

Как и в случае с любым технологическим решением, универсального для искусственного интеллекта не существует. Например, если задача решается с помощью нескольких единиц размеченных данных, зачем вообще погружаться в ИИ-систему и менять принцип ее работы. Следовательно, интерактивные инструменты ориентированы скорее на эффективное предоставление размеченных данных. С другой стороны, в случае с критическими задачами нельзя полагаться на недостаточное количество данных, и в этом случае графический интерфейс должен обеспечить контроль работы со стороны пользователя.

Свати Мишра

докторант кафедры вычислительной техники и информатики Корнелльского университета (США)

Иными словами, MLGUI, с точки зрения Свати Мишры, определяется типом задач, которые решаются с помощью алгоритма. Алексей Климов из SberCloud смотрит на эту проблему с другой стороны и отмечает, что интерфейс зависит от модели нейронной сети и заложенных в ней методов.

Можно сказать, что зачастую тут возникает «проклятие размерности» — когда очень много данных и их все не покажешь за раз. Либо в модели столько параметров, что тоже непонятно, как их визуализировать.

В целом, есть нестрогое деление методов на Explainable AI и Black Box AI (объяснимые и необъяснимые алгоритмы работы ИИ — прим.). Различные регуляторы, кстати, ограничивают использование Black Box AI при решении критических задач (например, регуляторы ЕС — прим.).

Нейронные сети — не полностью Explainable AI. Работу нейронной сети мы можем оценить в целом на выборке, но зачастую сложно сказать, почему в конкретном кейсе именно так было принято решение. Сам интерфейс сильно зависит от модели. У простых моделей он понятный, а для новых, менее изученных моделей, напротив, еще нет интерфейсов.

Алексей Климов

технический лидер по машинному обучению SberCloud

Безусловно, важно учитывать и фактор команды, то есть конечных пользователей. Игорь Кураленок выше упоминал о разнице в подходах: сегодня каждая компания может решать одну и ту же задачу с использованием ML по-своему. А Павел Снурницын из GlowByte говорит, что важен и размер команды, работающей над ML-проектами.

Пока команда небольшая и задач и проектов по ML перед ней стоит немного, участники и роли могут работать со своими разрозненными инструментами кому как удобно: кто-то сам пишет код и скрипты, кто-то использует специализированные инструменты, кто-то из бизнес-аналитиков смотрит на данные через Excel, а кто-то просит MLGUI.

Но с ростом команды и количества проектов появляется необходимость всем этим управлять и завести единый интерфейс и точку входа для всех ролей, который как раз будет сшивать и все многообразие инструментов и платформ.

Павел Снурницын

руководитель практики Advanced Analytics GlowByte Consulting

Таким образом, удалось выявить как минимум четыре критерия, которые должны учитываться при стандартизации MLGUI:

  1. Тип решаемых с помощью машинного обучения задач.
  2. Особенности методов машинного обучения и алгоритмов.
  3. Подходы команды для решения задач.
  4. Количество вовлеченных в процесс специалистов.

При этом Игорь Кураленок отмечает, что процесс стандартизации в сфере машинного обучения (а следовательно и MLGUI) уже начался. И перспективу эксперт, как руководитель облачного сервиса крупной технокомпании, видит в унификации ML-платформ за счет облачных решений.

Сейчас стандартизация начинает выкристаллизовываться, многие используют какие-то условные стандарты как в процессах, так и в инструментарии. Но, к сожалению, пока мы находимся в точке раздробленности. По запросу «MLOps» можно найти миллион библиотек с миллиардом разных функций, которые между собой не пересекаются: один MLOps-инструмент решает такие задачи, другой — такие, третий — третьи.

Проблема в эксплуатации, которая зависит от платформы. Сейчас все платформы разнородные. Условно, одни в облаке работают, другие на своих устройствах, третьи — на какой-то платформе, которая уже предоставляет определенные услуги, и так далее. Но происходит консолидация инструментария в «облаках», особенно по части эксплуатации. Для тренировки и использования машинного обучения нужны очень разнородные устройства, которые к тому же быстро устаревают. И далеко не всегда ясно, какие именно устройства нужны.

Таким образом, мы движемся к модели MLaaS (ML-as-a-Service), хотя единого стандарта пока и нет. Движение от нынешней точки раздробленности к унификации займет по крайней мере следующие пять лет.

Игорь Кураленок

руководитель ML-сервисов Яндекс.Облака

Отсутствие барьеров в медицине

Одна из главных сфер, напрямую не связанных с ИТ, но активно внедряющих технологии искусственного интеллекта, — медицина. Свати Мишра из Корнелльского университета говорит о важности ML в медицине с позиции ученого.

Здравоохранение — также важная область (наряду со сферой медиа — прим.). Проведение крупномасштабных испытаний новых лекарств и вакцин, безусловно, может быть ускорено с помощью машинного обучения с участием человека. Соответственно, необходимо сделать ИИ доступным для профессионалов в этих областях

Свати Мишра

докторант кафедры вычислительной техники и информатики Корнелльского университета (США)

Однако необходимо принимать во внимание и тот факт, что в медицине принимаются критически важные решения, от которых могут зависеть жизни. Соответственно, понятность и прозрачность работы алгоритмов машинного обучения играют важную роль.

С нашим сервисом работают врачи, поэтому без понятного графического интерфейса тут не обойтись. Его отсутствие — однозначно стоп-фактор, без которого внедрение моделей было бы невозможно.

Мы не пользуемся готовыми дашбордами, у нас собственный веб-интерфейс. Его сложнее поддерживать, но зато он более гибкий, если нужно добавить какой-то нестандартный функционал. Самое главное — чтобы врач мог без труда понять, что происходит и какие значения что значат.

Владимир Борисов

руководитель направления разработки прогнозных моделей Webiomed

Владимир Борисов показал несколько примеров интерфейса системы Webiomed, с которым работают врачи.

Страница оценки обезличенного пациента по его анализам. То, что видят врачи при работе с системой. Источник: Webiomed

Пример страницы для работы с моделями распознавания текста. Источник: Webiomed

Евгений Жуков из Care Mentor AI отмечает, что для их компании проблемы отсутствия понятного MLGUI нет. При этом он также подчеркивает тот факт, что в сфере ML сейчас отсутствует стандартизация, однако как существенный стоп-фактор для внедрения он это не рассматривает.

На самом деле такой проблемы у нас не стоит. В целом, в нашем случае тяжело сделать какой-то уникальный MLGUI для всех продуктов сразу, потому что каждый продукт уникален по-своему. И разработка порой требует огромного количества экспериментов с разными моделями и данными. Разом учесть все параметры при проектировании GUI будет крайне сложно. Гораздо важнее сопроводить решение качественной документацией и сделать его воспроизводимым для других дата-сайентистов.

Из интерфейсов, которые также можно отнести к машинному обучению, — интерфейс нашего инструмента для разметки данных. В целом, он достаточно удобен для врачей и похож на те средства, которые они регулярно используют для просмотра медицинских изображений. Результаты разметки экспортируются в формат, подходящий для дальнейшей обработки и обучения нейросети.

Евгений Жуков

Data Scientist в Care Mentor AI

В компании «Третье Мнение», в свою очередь, такую проблему наблюдают, однако она не является критичной.

Проблема актуальна, так как наличие GUI позволяет в некоторых случаях упростить взаимодействие отдела ML с другими отделами компании, которым необходимо использовать готовые нейросети, а также упростить внедрение алгоритмов. Значимым стоп-фактором не является, так как базовые процессы использования нейросетей без GUI уже выстроены.

Александр Громов

Computer vision team lead в компании «Третье Мнение»

Будет ли удобнее голосом

ICT.Moscow также обсудил с экспертами перспективность применения голосовых интерфейсов для работы с машинным обучением. Эксперты сошлись во мнении, что перспективы если и есть, то небольшие. Если говорить про медицину, то Евгений Жуков из Care Mentor AI назвал голосовые интерфейсы в целом неприменимыми для решения задач компании. Александр Громов из «Третьего Мнения» придерживается той же позиции.

Неприменимы, так как они не обладают высокой точностью распознавания и могут привести к ошибкам обработки команд от пользователя, например, связанных с обработкой данных и тестированием обученных моделей. Также крайне сомнительно, что использование голосовых интерфейсов ускорит процесс разработки по сравнению с графическим.

Александр Громов

Computer vision team lead в компании «Третье Мнение»

Впрочем, руководитель направления разработки прогнозных моделей Webiomed Владимир Борисов все же считает, что голосовые интерфейсы могут дополнять MLGUI: например, с целью заполнения информации о пациенте. Позиции разработчиков медицинских компаний соотносится и с тем, что говорят эксперты из других компаний. Игорь Кураленок, руководитель ML-сервисов Яндекс.Облака, утверждает, что пока до этого еще дело не дошло. А Станислав Кириллов из Яндекса уточняет, что сценарии очень ограничены.

Как вторичный инструмент для мелких автоматизаций — да, но как основной инструмент для запуска процессов и мониторинга — я не вижу тут реальной применимости.

Станислав Кириллов

руководитель группы ML Systems Яндекса

Но есть и иные точки зрения. Например, Денис Жихарев из ДИТ Москвы уверен в том, что «голос» очень быстро станет повседневностью и в сфере работы с ML.

Это следующий шаг. Смотря на скорость, с которой сейчас развиваются голосовые интерфейсы, думаю, что за ними недалекое будущее.

Денис Жихарев

Начальник Управления интеграционных проектов и систем аутентификации ДИТ Москвы

Об этом же говорит и Павел Снурницын из GlowByte Consulting. Он напоминает, что применение голосовых помощников — уже распространенное явление в построении и работе с отчетами и дашбордами.

В кейсах MLGUI голосовые интерфейсы, думаю, найдут еще большее применение, как раз за счет интерактивности и обратной связи при работе бизнес-пользователя. В некоторых кейсах, как, например при взаимодействии инженера с цифровым советником для управления сложным производственным процессом, голосовые команды аналитическому приложению будут более удобны, чем классическое взаимодействие через GUI.

Павел Снурницын

руководитель практики Advanced Analytics GlowByte Consulting

Наконец, в перспективность «голоса» верит и Свати Мишра из Корнелльского университета.

Голосовые интерфейсы, безусловно, лучше графических для задач, требующих скорости и точности. Есть исследования, изучающие формирование голосового взаимодействия для расширенного анализа данных. Язык, — более интуитивная форма коммуницирования с ИИ, и голосовое взаимодействие находит свое применение в области работы с данными естественного языка. Тем не менее, еще предстоит проделать большую работу, чтобы понять, как мы можем формулировать инструкции для сложных задач вроде построения или обучения ИИ.

Свати Мишра

докторант кафедры вычислительной техники и информатики Корнелльского университета (США)

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.


Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0