ГлавнаяЛента

Статьи

Датасеты в России: эксперты рынка о проблемах и возможностях

27 апреля 2020, 12:30|
11863

Эффективность систем искусственного интеллекта как правило достигается за счет достаточного количества данных. В идеале — готовых датасетов, то есть наборов данных, специальным образом размеченных для того, чтобы их понимали и воспринимали нейросети и алгоритмы искусственного интеллекта. Объемы данных тем временем растут год от года: по оценке IDC, если в 2018-м в мире было накоплено 33 зеттабайта (миллиарда терабайт) данных, то в 2025-м это число будет равняться 175 зеттабайтам.

Казалось бы, это хорошо, но где большие данные, там и большие проблемы. Главная заключается в недостаточно высоком качестве общедоступных данных. Так называемые «грязные данные» считались главной проблемой отрасли три года назад и продолжают считаться сегодня. В конце 2019-го телеком-оператор Telenor определил «грязные данные» в список самых популярных технологических трендов 2020-го. 

О том, какова ситуация с Big Data сегодня и как компании решают связанные с этим сложности, мы поговорили с экспертами индустрии: разработчиками и специалистами в области данных.


Две главные проблемы больших данных

В случае с искусственным интеллектом действует простое правило: чем больше данных, тем эффективнее будет работа с ИИ. По мнению бизнес-архитектора Predictive Analytic Solutions компании Mail.ru Group Владимира Новоселова, хорошие и качественные наборы данных с разметкой — один из самых ценных компонентов, необходимых для разработки эффективного решения в области машинного обучения (ML).

Их ценность обусловлена двумя основными факторами, которые широко обсуждаются профессиональным сообществом как на тематических мероприятиях, так и в социальных сетях:

  • общая нехватка данных;
  • недостаточно высокое качество данных.

Относительно первой проблемы большинство опрошенных нами экспертов сходятся во мнении: много данных никогда не бывает, в некотором смысле их не хватает всегда.

Любая команда, которая занимается разработкой ML-based систем, сталкивается с этой проблемой. Крупные компании инвестируют большие средства в то, чтобы обеспечить инфраструктуру сбора и агрегации данных, необходимых для обучения и анализа. То, насколько эффективно компании решают проблему доступности данных, во многом обеспечивает ее конкурентоспособность на этом рынке. 

Владимир Новоселов

бизнес-архитектор Predictive Analytic Solutions, Mail.ru Group

Даже в случае достаточного количества открытых данных по нужному направлению, их может не хватать для решения конкретных задач компании.

В областях обработки естественного языка (NLP) и компьютерного зрения (CV) есть большое количество как качественных датасетов под разные задачи, так и предобученных на этих датасетах моделей. При этом для решения прикладной задачи помимо публичных данных обязательно надо дообучить модель на собственных.

Денис Власов

ведущий аналитик и специалист по машинному обучению «Учи.ру»

С этой точкой зрения согласна глава компании в области ИИ-решений в сфере здравоохранения «Третье мнение» Анна Мещерякова:

Мы используем открытые датасеты на стадии research. Работаем с опубликованными в России данными и взаимодействуем с зарубежными коллегами. Собственная научная деятельность и сотрудничество с медицинскими и техническими вузами в России и за рубежом позволяет получать качественные датасеты для целей research. Но на стадии обучения мы редко используем открытые датасеты — у нас собственные требования к классификаторам, к разметке.

Анна Мещерякова

CEO «Третье мнение»

Андрей Воробьев, президент МТП «Ньюдиамед», считает, что из больших данных в медицине можно собирать только изображения, и те размечать и анализировать надо самостоятельно.

Врачам приходится писать истории болезни «для прокурора». Зачастую это недостоверные или неполные данные. Потому искать правды в больших массивах клинических данных бессмысленно, ничего полезного вы там не найдете. Гораздо эффективнее устранить человеческий фактор в источнике данных и собирать структурированную информацию от самих пациентов. Мы задаем вопросы пациенту за врача, получаем полный объем необходимых данных об анамнезе и жалобах и уже на этих данных «учимся».

Андрей Воробьев

президент МТП «Ньюдиамед»

R&D-директор компании UBIC Technologies в качестве примера тоже приводит медицинские данные:

В сети есть отличные качественные датасеты, которые, к сожалению, не охватывают все многообразие клинических проявлений исследуемого заболевания. Поэтому самое сложное — отделять зерна от плевел, особенно в тех предметных областях, в которых не являешься экспертом и не можешь быстро найти эксперта поблизости, но задачу решать надо. Отчасти помогают специализированные инструменты: Google Dataset Search или Яндекс.Толока.

Петр Емельянов

R&D-директор в UBIC Technologies

Исполнительный директор Департамента анализа данных и моделирования «Газпромбанка» Адель Валиуллин считает, что найти качественные примеры открытых данных не так сложно, приводя в пример наборы MNIST, MS СОСО, OpenImages, ImageNet, которые обычно подготавливают крупные институты и корпорации.

При решении задач анализа данных на основе текстовых данных часто возникает проблема наличия размеченных датасетов, особенно на русском языке. Размечать данные обычно долго и дорого. Если есть открытые данные и принцип разметки легко объясним, то могут подойти такие инструменты как Яндекс.Толока и Amazon Mechanical Turk. Если же данные выгружать наружу нельзя или же требуется экспертиза при разметке, как например, врача-радиолога или эксперта-лингвиста, то создание такого размеченного набора данных будет трудоемким и требовать значительных затрат.

Адель Валиуллин

исполнительный директор Департамента анализа данных и моделирования «Газпромбанка»

Действительно, во многих случаях открытые датасеты не являются панацеей, и компаниям приходится использовать общедоступные инструменты поиска и генерации данных, а также самостоятельно собирать нужную информацию.

В случае нехватки данных мы обычно майнили сами: собирали данные в офисе и других местах, использовали Яндекс.Толоку, просили людей записывать короткие ролики. Специфика сбора сильно зависит от предметной области исследования.

Дмитрий Акимов

инженер по данным VisionLabs

В целом все зависит от конкретных задач, объясняет аналитик данных в Sever.ai ИТ-холдинга TalentTech Алексей Иванов.

Задачи бывают общие, схожие с научными, а бывают прикладные, узкоспециализированные. Первые решаются и оцениваются с помощью открытых датасетов (ImageNet, SQuAD, Wiki corpus, например). Для второго типа задач открытых датасетов просто нет. Например, для скоринга резюме без собственноручного сбора и разметки данных не обойтись. Открытые данные здесь помогают уменьшить размер специфического датасета — это нужно для повышения точности, поскольку качественные модели на маленьких датасетах часто дают плохие результаты.

Алексей Иванов

аналитик данных в Sever.AI ИТ-холдинга TalentTech

Владимир Новоселов из Mail.ru Group добавляет, что в высококонкурентных областях применения, таких как беспилотные автомобили, общедоступные датасеты по полноте и качеству подходят только для решения любительских и экспериментальных задач.

Наталья Соколова, глава Brand Analytics — компании в области мониторинга социальных сетей и СМИ, где данных по определению огромное количество, — тоже считает, что наличие общедоступных датасетов, безусловно, помогает только на начальном этапе проверки гипотез. В таких случаях куда более актуальная проблема — недостаточно высокое качество данных и большое количество ошибок. Или, как рассказывает Алексей Карначев из Just AI, наоборот:

Зачастую открытые датасеты слишком чистые — настолько, что специфика доменной информации, которая должна присутствовать в этих данных, попросту теряется. Наша R&D-команда изучала датасеты для разработки функционала «болталки» на естественном языке внутри диалоговой системы и использовала открытый датасет «Yandex.Toloka Persona Chat Rus», состоящий из 10 тыс. диалогов. Он как раз был чересчур чистым — таких диалогов в жизни не бывает: в них нет ошибок, разговорной или ненормативной лексики. Поэтому для конкретно этой цели качество датасета невысокое, хотя с ним все в порядке с точки зрения формальных критериев.

Датасеты, которые находятся в открытом доступе, создаются в основном для каких-то академических целей – например, для оценки качества моделей, при написании исследований. Поэтому они хороши для research-стадии, проверки гипотез, но не для финальных разработок.

Алексей Карначев

руководитель команды R&D Just AI

К слову, директор и учредитель Ассоциации участников рынка данных Иван Бегтин тоже подтверждает, что академические и коммерческие датасеты как правило лучше государственных и некоммерческих — последние чаще бывают плохого или среднего качества. Но Дмитрий Акимов из VisionLabs с этим не согласен:

Качество публичных датасетов достаточно хорошее, однако существуют ошибки в разметке и их объемы, как правило, малы. Кроме того, их нельзя использовать в коммерческих целях. Подобные наборы данных больше подходят для образовательных целей, а для выпуска продукта в продакшен нужны собственные данные.

Дмитрий Акимов

инженер по данным VisionLabs

Путаницу с качеством датасетов проясняет руководитель лаборатории машинного интеллекта компании Яндекс Александр Крайнов: в данном случае нужно говорить не о качестве, а о репрезентативности. И его вывод о работе компаний с данными вполне однозначен:

В целом редко бывает, что датасет, собранный не под очень конкретную задачу, полностью репрезентативен. Можно также говорить, что в каких-то областях датасетов хватает, в каких-то — нет. Но вся наука живет на общедоступных датасетах, и живет успешно.

В любом случае, сбор, поиск, генерация, разметка данных — это важная часть работы. Никто не должен подносить тебе данные. Хочешь делать ИИ-решения? Занимайся данными сам.

Александр Крайнов

руководитель лаборатории машинного интеллекта, Яндекс


Как очищать данные и нужно ли это в принципе

Один из главных критериев некачественных данных — их недостаточная «чистота». Что это значит, объясняет эксперт:

Словосочетание «грязные данные» — это собирательный образ.

Во-первых, это набор неточностей и ошибок механического характера: опечатки, пропуски, разные форматы и прочее. Методы борьбы тут тоже исключительно механические — скучные, трудоемкие, но в целом понятные: аккуратность, прозрачные и документированные ETL-процедуры.

Во-вторых, семантические ошибки — например, оксюмороны вроде «беременных мужчин» и «пожилых пионеров». Лечение таких проблем чуть более творческая задача, но методы детектирования аномалий и выбросов существуют давно.

В-третьих (во многом это следствие предыдущих пунктов), это вопрос доверия к решениям и выводам ИИ-алгоритмов и их легитимность.

Петр Емельянов

R&D-директор в UBIC Technologies

Адель Валиуллин напоминает о принципе GIGO — «Garbage In, Garbage Out» («Мусор на входе — мусор на выходе»).

Если входные данные включают в себя ошибки, то будут получены искаженные выводы, даже если сам по себе алгоритм правильный. Если данных действительно много, то можно пожертвовать грязным набором данных, удалив их из всего датасета. Также эффективные методы очистки можно реализовать на таких инструментах разметки данных как Яндекс.Толока и Amazon Mechanical Turk.

Адель Валиуллин

исполнительный директор Департамента анализа данных и моделирования «Газпромбанка»

Алексей Карначев из Just AI развивает мысль коллеги и на примерах показывает, как нейронные сети воспринимают подобные данные.

Например, мы хотим сделать классификатор документов. Допустим, корпус документов у нас «грязный»: слова содержат орфографические и пунктуационные ошибки, опечатки. Каждая ошибка в слове, по сути, раздувает словарь: есть слово «данные», а есть «даные» — с одной «н». Для алгоритма это два разных слова, в итоге данные зашумляются.

С другой стороны, есть современные методы: нейронные LSTM-сети или трансформеры, любые современные NLP-модели. Для них часто вообще не нужно чистить данные. Если мы возьмем датасет диалогов с форума и исправим в них ошибки, можно убрать и полезную информацию, которая содержится в данных. Поэтому важнее не то, как чистить данные, а как понять, что данные «грязные» и нуждаются в чистке. Если же понятно, что нуждаются, то очистить их не проблема, просто на это нужно потратить время.

Алексей Карначев

руководитель команды R&D Just AI

Дмитрий Акимов из VisionLabs делится опытом — каким образом лучше работать с «грязными» данными:

Один из эффективных способов — переразметка. Мы используем краудсорсинг — это довольно затратно, но эффективно. Как правило, чем больше мы платим разметчикам, тем чище на выходе данные. Также мы используем технологию human in the loop: когда асессор исправляет уже размеченные ML-алгоритмом данные, на которых потом обучаются нейронные сети.

Дмитрий Акимов

инженер по данным VisionLabs

Александр Крайнов из Яндекса тоже считает, что лучше краудсорсиноговой разметки ничего нет. Может помочь и количество данных, напоминает он: если их много, то «грязность» не так страшна.

Другие эксперты видят необходимость в превентивных мерах и системном подходе к решению проблемы.

Абсолютно чистых данных не бывает, вопрос степени загрязнения. Избегать следует системных искажений в выборке. Если же речь про случайные баги в разметке или признаках, то не вижу в этом проблемы: некоторая регуляризация не повредит. Это скорее всего не относится к по-настоящему грязным данным, с которыми мы не сталкивались.

Денис Власов

ведущий аналитик и специалист по машинному обучению «Учи.ру»

Директор Ассоциации участников рынка данных Иван Бегтин отмечает важность работы с «первоисточниками»: по его мнению, самый эффективный метод работы с «грязными» данными — убедить владельцев контролировать их ввод и очистку. С этой точкой зрения согласен Алексей Иванов из Sever.AI:

Для борьбы с «грязными» данными мне видится эффективным повышение культуры работы с датой внутри организации в целом. Нужны понятные структуры и дашборды, с помощью которых специалист может быстро определить, что что-то пошло не так.

Алексей Иванов

аналитик данных в Sever.AI ИТ-холдинга TalentTech

По мнению Петра Емельянова из UBIC Technologies, даже этот процесс в будущем может быть решен техническими способами:

В целом проблема грязных данных исключительно инфраструктурная. Мне кажется, что все самое интересное и прорывное, что ждет нас в индустрии в ближайшие годы, случится именно в инфраструктуре: появятся системы, которые будут эффективно чистить данные, закрывать вопросы конфиденциальности и т.д.

Петр Емельянов

R&D-директор в UBIC Technologies


Не проще ли генерировать данные искусственно

Сегодня к подобным системам отчасти можно отнести синтетические данные. Это инструмент, который позволяет нейросетям обучаться на «виртуальных данных» — например, сгенерированных другими нейросетями, — и затем применяться в реальности. Мы попросили экспертов оценить, насколько такой подход действенен и оправдан.

Есть разные подходы к созданию синтетических данных, и от выбора конкретного подхода в большой степени зависит эффективность их применения. В некоторых случаях без них не обойтись, и они помогают решить задачу, но в других случаях могут эффективно помочь только на стартовом этапе подготовки нейронных сетей.

Наталья Соколова

CEO Brand Analytics

То же самое говорит Алексей Карначев из Just AI: эффективность зависит от задачи.

Генерирование синтетических данных может быть оправдано, когда модель нам не принадлежит либо она чересчур тяжелая. В ином случае, если бы у нас на руках была модель, которая генерирует данные и удовлетворяет потребностям по размеру и быстродействию, мы скорее всего приспособили бы ее для основной задачи, а не для генерации данных. В любом случае, такая модель должна быть сильнее той, которая будет на этих данных обучаться.

В случае с обучением модели классификации текста есть альтернативный вариант. Если данных мало, мы можем дополнить датасет при помощи техники back translation. Переводим текст с русского на английский в «Google Переводчике», а потом обратно. Эффект известен — предложение меняется, иногда не совсем адекватно, но в основном мы получаем просто новую формулировку. Ее можно добавлять в датасет с тем же классом, расширяя его за счет синтетических данных.

Алексей Карначев

руководитель команды R&D Just AI

Дмитрий Акимов из VisionLabs соглашается: синтетические данные не могут решить все проблемы, но позволяет обеспечить базовое обучение. Но на следующих этапах, предостерегает он, все равно потребуются реальные данные, поскольку «синтетика» не всегда дает прирост точности.

Того же мнения придерживается аналитик данных в Sever.AI Алексей Иванов:

Если мы говорим, например, про понимание естественного языка, про определение личностных характеристик человека по видео, то «живые» данные людей не заменит ничто. Впрочем, для выделения голоса из посторонних шумов можно использовать вариант синтетических данных, но и в этом случае исходные звуки и шумы должны быть настоящими.

Алексей Иванов

аналитик данных в Sever.AI ИТ-холдинга TalentTech

Важна также специфика отрасли. Например, Денис Власов из образовательной площадки «Учи.Ру» рассказывает, что компания не применяет этот метод, поскольку он в их случае не дает существенного преимущества, но повышает риск ошибок. То же самое говорит Анна Мещерякова про область здравоохранения:

«Синтетику» используют в более простых задачах: распознавании текста или дорожных знаков — там, где генерирование синтетических данных выполнить относительно просто. Задача создания качественной «синтетики», которая будет похожа на реальные данные и покрывать сложные и редкие случаи, намного сложнее.  В медицине данные отличаются от аппарата к аппарату. Невозможно сгенерировать синтетические данные для аппарата, по которому не было получено «чистых», реальных данных.

Анна Мещерякова 

CEO «Третье мнение»


Могут ли помочь новые регуляторные меры

Одним из вариантов частичного решения проблем с датасетами может стать эффективное государственное регулирование в этой области. Мы спросили у экспертов, считают ли они необходимым ввод дополнительных регуляторных инструментов.

Не считаю, что нужно дополнительное регулирование. На мой взгляд, датасеты должны быть открытыми, если они не являются коммерческой тайной или не содержат персональных данных. Ограничения приведут к образованию монополии на данные и снижению конкуренции, что всегда негативно сказывается на конечном продукте.

Дмитрий Акимов

инженер по данным VisionLabs

К слову, открытость датасетов — определяющий критерий для всех опрошенных нами экспертов. Директор Ассоциации участников рынка данных Иван Бегтин считает необходимым регулирование по раскрытию данных государством, поскольку открытые данные необходимы для развития рынка ИИ. 

Директор Brand Analytics, Наталья Соколова смотрит на этот вопрос с другой стороны:

Внутри компаний дополнительное регулирование не нужно. Большие данные — всегда совокупность «малых» данных, которые и так регулируются законодательством. Практически все датасеты отмечены используемыми правами и источниками. Регулироваться могут персонализированные исходные данные при передаче во внешнюю компанию или организацию.

Наталья Соколова

CEO Brand Analytics

Анна Мещерякова из «Третьего мнения», в свою очередь, уже успела оценить положительный эффект от принятых ранее регуляторных решений в области здравоохранения.

Регулирование нужно, так как оно позволяет ускорить развитие отрасли и повысить число внедренных решений. Разработчики ИИ-сервисов для здравоохранения до недавнего времени не могли осуществлять продажи продуктов, так как критерии их отнесения к медицинским изделиям и соответствующие требования не были определены регулятором. На данный момент разъяснения получены, сертификация идет в ускоренном режиме.

Анна Мещерякова 

CEO «Третье мнение»

Напомним, что недавно решение компании «Третье мнение» — умная система видеонаблюдения за пациентами — начало применяться в одной из клиник «Медси», где лечат больных коронавирусом.

Петр Емельянов из UBIC Technologies, в свою очередь, поднял вопрос безопасности данных — области, которая, по его мнению, безусловно требует дополнительных регуляторных мер.

Важно понимать, что есть разница между безопасностью и конфиденциальностью. Если, например, у человека крадут данные кредитной карты, то это вопрос безопасности: в общем случае человек звонит в банк и за две минуты аннулирует дискредитированную карту. А вот если человек серьезно болен, и об этом узнают, например, в результате утечки данных, то это более серьезная проблема — нарушение конфиденциальности. Поэтому, я считаю, что дополнительное разумное регулирование необходимо, а устранение преград должно происходить в технической плоскости.

Петр Емельянов

R&D-директор в UBIC Technologies

Вопрос приватности данных в целом довольно активно обсуждается участниками индустрии.

В России пока нет закона, который бы регулировал использование ИИ в HR-сфере. Компаниям, которые планируют использовать ИИ, нужно быть прозрачными, научиться понимать и объяснять принципы работы алгоритмов. Было бы полезно ограничивать действия людей или даже компаний, которые хотят извлечь выгоду из повсеместного сбора данных. Но государственное и юридическое регулирование работы ИИ должно быть направлено на защиту интересов граждан и пользователей продуктов, а не на торможение развития современных технологий.

Алексей Иванов

аналитик данных в Sever.AI ИТ-холдинга TalentTech

По мнению Дениса Власова из «Учи.ру», важно устранить неопределенность в отношении персональных данных и барьеров в получении обезличенных данных. Ничто не подтолкнет разработки ИИ так, как появление открытых специализированных датасетов в здравоохранении, образовании и так далее.

О необходимости поиска баланса между персональными и обезличенными данными говорит и Александр Крайнов из Яндекса:

Всегда нужно искать баланс между защитой пользовательской информации и сбором данных для развития технологий и сервисов. Регулирование должно постоянно меняться вместе с развитием технологий и общества. Хорошее регулирование должно помогать прогрессу и минимизировать неприятные побочные эффекты.

Александр Крайнов

руководитель лаборатории машинного интеллекта, Яндекс

Адель Валиуллин, в свою очередь, напоминает, что такие области как большие данные и ИИ активно развиваются и входят в большее количество сфер: медицина, финансы, образование, транспорт и др. А значит, регулирование в этой области неизбежно. Владимир Новоселов из Mail.Ru Group уточняет, что эта работа в интересах индустрии уже активно ведется:

В настоящий момент компетентные участники рынка задействованы в работе комитетов по разработке новых регуляторных норм. Это позволит, в частности, облегчить доступ к данным, необходимым для обучения ИИ, которыми располагают государственные органы, разрабатывать ML-сервисы на объединенных наборах данных из разных источников в режиме «песочниц».

Владимир Новоселов

бизнес-архитектор Predictive Analytic Solutions, Mail.ru Group


Напомним, что 24 апреля Владимир Путин подписал закон об экспериментальном правовом режиме для ИИ-разработчиков в Москве. Он должен вступить в силу 1 июля и продлиться пять лет.

Больше информации о разработках в области искусственного интеллекта можно посмотреть в Базе знаний ИИ.

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0