Эффективность систем искусственного интеллекта как правило достигается за счет достаточного количества данных. В идеале — готовых датасетов, то есть наборов данных, специальным образом размеченных для того, чтобы их понимали и воспринимали нейросети и алгоритмы искусственного интеллекта. Объемы данных тем временем растут год от года: по оценке IDC, если в 2018-м в мире было накоплено 33 зеттабайта (миллиарда терабайт) данных, то в 2025-м это число будет равняться 175 зеттабайтам.
Казалось бы, это хорошо, но где большие данные, там и большие проблемы. Главная заключается в недостаточно высоком качестве общедоступных данных. Так называемые «грязные данные» считались главной проблемой отрасли три года назад и продолжают считаться сегодня. В конце 2019-го телеком-оператор Telenor определил «грязные данные» в список самых популярных технологических трендов 2020-го.
О том, какова ситуация с Big Data сегодня и как компании решают связанные с этим сложности, мы поговорили с экспертами индустрии: разработчиками и специалистами в области данных.
В случае с искусственным интеллектом действует простое правило: чем больше данных, тем эффективнее будет работа с ИИ. По мнению бизнес-архитектора Predictive Analytic Solutions компании Mail.ru Group Владимира Новоселова, хорошие и качественные наборы данных с разметкой — один из самых ценных компонентов, необходимых для разработки эффективного решения в области машинного обучения (ML).
Их ценность обусловлена двумя основными факторами, которые широко обсуждаются профессиональным сообществом как на тематических мероприятиях, так и в социальных сетях:
Относительно первой проблемы большинство опрошенных нами экспертов сходятся во мнении: много данных никогда не бывает, в некотором смысле их не хватает всегда.
бизнес-архитектор Predictive Analytic Solutions, Mail.ru Group
Даже в случае достаточного количества открытых данных по нужному направлению, их может не хватать для решения конкретных задач компании.
Денис Власов
ведущий аналитик и специалист по машинному обучению «Учи.ру»
С этой точкой зрения согласна глава компании в области ИИ-решений в сфере здравоохранения «Третье мнение» Анна Мещерякова:
CEO «Третье мнение»
Андрей Воробьев, президент МТП «Ньюдиамед», считает, что из больших данных в медицине можно собирать только изображения, и те размечать и анализировать надо самостоятельно.
президент МТП «Ньюдиамед»
R&D-директор компании UBIC Technologies в качестве примера тоже приводит медицинские данные:
R&D-директор в UBIC Technologies
Исполнительный директор Департамента анализа данных и моделирования «Газпромбанка» Адель Валиуллин считает, что найти качественные примеры открытых данных не так сложно, приводя в пример наборы MNIST, MS СОСО, OpenImages, ImageNet, которые обычно подготавливают крупные институты и корпорации.
исполнительный директор Департамента анализа данных и моделирования «Газпромбанка»
Действительно, во многих случаях открытые датасеты не являются панацеей, и компаниям приходится использовать общедоступные инструменты поиска и генерации данных, а также самостоятельно собирать нужную информацию.
Дмитрий Акимов
инженер по данным VisionLabs
В целом все зависит от конкретных задач, объясняет аналитик данных в Sever.ai ИТ-холдинга TalentTech Алексей Иванов.
Алексей Иванов
аналитик данных в Sever.AI ИТ-холдинга TalentTech
Владимир Новоселов из Mail.ru Group добавляет, что в высококонкурентных областях применения, таких как беспилотные автомобили, общедоступные датасеты по полноте и качеству подходят только для решения любительских и экспериментальных задач.
Наталья Соколова, глава Brand Analytics — компании в области мониторинга социальных сетей и СМИ, где данных по определению огромное количество, — тоже считает, что наличие общедоступных датасетов, безусловно, помогает только на начальном этапе проверки гипотез. В таких случаях куда более актуальная проблема — недостаточно высокое качество данных и большое количество ошибок. Или, как рассказывает Алексей Карначев из Just AI, наоборот:
Датасеты, которые находятся в открытом доступе, создаются в основном для каких-то академических целей – например, для оценки качества моделей, при написании исследований. Поэтому они хороши для research-стадии, проверки гипотез, но не для финальных разработок.
Алексей Карначев
руководитель команды R&D Just AI
К слову, директор и учредитель Ассоциации участников рынка данных Иван Бегтин тоже подтверждает, что академические и коммерческие датасеты как правило лучше государственных и некоммерческих — последние чаще бывают плохого или среднего качества. Но Дмитрий Акимов из VisionLabs с этим не согласен:
Дмитрий Акимов
инженер по данным VisionLabs
Путаницу с качеством датасетов проясняет руководитель лаборатории машинного интеллекта компании Яндекс Александр Крайнов: в данном случае нужно говорить не о качестве, а о репрезентативности. И его вывод о работе компаний с данными вполне однозначен:
В любом случае, сбор, поиск, генерация, разметка данных — это важная часть работы. Никто не должен подносить тебе данные. Хочешь делать ИИ-решения? Занимайся данными сам.
руководитель лаборатории машинного интеллекта, Яндекс
Один из главных критериев некачественных данных — их недостаточная «чистота». Что это значит, объясняет эксперт:
Во-первых, это набор неточностей и ошибок механического характера: опечатки, пропуски, разные форматы и прочее. Методы борьбы тут тоже исключительно механические — скучные, трудоемкие, но в целом понятные: аккуратность, прозрачные и документированные ETL-процедуры.
Во-вторых, семантические ошибки — например, оксюмороны вроде «беременных мужчин» и «пожилых пионеров». Лечение таких проблем чуть более творческая задача, но методы детектирования аномалий и выбросов существуют давно.
В-третьих (во многом это следствие предыдущих пунктов), это вопрос доверия к решениям и выводам ИИ-алгоритмов и их легитимность.
R&D-директор в UBIC Technologies
Адель Валиуллин напоминает о принципе GIGO — «Garbage In, Garbage Out» («Мусор на входе — мусор на выходе»).
исполнительный директор Департамента анализа данных и моделирования «Газпромбанка»
Алексей Карначев из Just AI развивает мысль коллеги и на примерах показывает, как нейронные сети воспринимают подобные данные.
С другой стороны, есть современные методы: нейронные LSTM-сети или трансформеры, любые современные NLP-модели. Для них часто вообще не нужно чистить данные. Если мы возьмем датасет диалогов с форума и исправим в них ошибки, можно убрать и полезную информацию, которая содержится в данных. Поэтому важнее не то, как чистить данные, а как понять, что данные «грязные» и нуждаются в чистке. Если же понятно, что нуждаются, то очистить их не проблема, просто на это нужно потратить время.
Алексей Карначев
руководитель команды R&D Just AI
Дмитрий Акимов из VisionLabs делится опытом — каким образом лучше работать с «грязными» данными:
Дмитрий Акимов
инженер по данным VisionLabs
Александр Крайнов из Яндекса тоже считает, что лучше краудсорсиноговой разметки ничего нет. Может помочь и количество данных, напоминает он: если их много, то «грязность» не так страшна.
Другие эксперты видят необходимость в превентивных мерах и системном подходе к решению проблемы.
Денис Власов
ведущий аналитик и специалист по машинному обучению «Учи.ру»
Директор Ассоциации участников рынка данных Иван Бегтин отмечает важность работы с «первоисточниками»: по его мнению, самый эффективный метод работы с «грязными» данными — убедить владельцев контролировать их ввод и очистку. С этой точкой зрения согласен Алексей Иванов из Sever.AI:
Алексей Иванов
аналитик данных в Sever.AI ИТ-холдинга TalentTech
По мнению Петра Емельянова из UBIC Technologies, даже этот процесс в будущем может быть решен техническими способами:
R&D-директор в UBIC Technologies
Сегодня к подобным системам отчасти можно отнести синтетические данные. Это инструмент, который позволяет нейросетям обучаться на «виртуальных данных» — например, сгенерированных другими нейросетями, — и затем применяться в реальности. Мы попросили экспертов оценить, насколько такой подход действенен и оправдан.
Наталья Соколова
CEO Brand Analytics
То же самое говорит Алексей Карначев из Just AI: эффективность зависит от задачи.
В случае с обучением модели классификации текста есть альтернативный вариант. Если данных мало, мы можем дополнить датасет при помощи техники back translation. Переводим текст с русского на английский в «Google Переводчике», а потом обратно. Эффект известен — предложение меняется, иногда не совсем адекватно, но в основном мы получаем просто новую формулировку. Ее можно добавлять в датасет с тем же классом, расширяя его за счет синтетических данных.
Алексей Карначев
руководитель команды R&D Just AI
Дмитрий Акимов из VisionLabs соглашается: синтетические данные не могут решить все проблемы, но позволяет обеспечить базовое обучение. Но на следующих этапах, предостерегает он, все равно потребуются реальные данные, поскольку «синтетика» не всегда дает прирост точности.
Того же мнения придерживается аналитик данных в Sever.AI Алексей Иванов:
Алексей Иванов
аналитик данных в Sever.AI ИТ-холдинга TalentTech
Важна также специфика отрасли. Например, Денис Власов из образовательной площадки «Учи.Ру» рассказывает, что компания не применяет этот метод, поскольку он в их случае не дает существенного преимущества, но повышает риск ошибок. То же самое говорит Анна Мещерякова про область здравоохранения:
CEO «Третье мнение»
Одним из вариантов частичного решения проблем с датасетами может стать эффективное государственное регулирование в этой области. Мы спросили у экспертов, считают ли они необходимым ввод дополнительных регуляторных инструментов.
Дмитрий Акимов
инженер по данным VisionLabs
К слову, открытость датасетов — определяющий критерий для всех опрошенных нами экспертов. Директор Ассоциации участников рынка данных Иван Бегтин считает необходимым регулирование по раскрытию данных государством, поскольку открытые данные необходимы для развития рынка ИИ.
Директор Brand Analytics, Наталья Соколова смотрит на этот вопрос с другой стороны:
Наталья Соколова
CEO Brand Analytics
Анна Мещерякова из «Третьего мнения», в свою очередь, уже успела оценить положительный эффект от принятых ранее регуляторных решений в области здравоохранения.
CEO «Третье мнение»
Напомним, что недавно решение компании «Третье мнение» — умная система видеонаблюдения за пациентами — начало применяться в одной из клиник «Медси», где лечат больных коронавирусом.
Петр Емельянов из UBIC Technologies, в свою очередь, поднял вопрос безопасности данных — области, которая, по его мнению, безусловно требует дополнительных регуляторных мер.
R&D-директор в UBIC Technologies
Вопрос приватности данных в целом довольно активно обсуждается участниками индустрии.
Алексей Иванов
аналитик данных в Sever.AI ИТ-холдинга TalentTech
По мнению Дениса Власова из «Учи.ру», важно устранить неопределенность в отношении персональных данных и барьеров в получении обезличенных данных. Ничто не подтолкнет разработки ИИ так, как появление открытых специализированных датасетов в здравоохранении, образовании и так далее.
О необходимости поиска баланса между персональными и обезличенными данными говорит и Александр Крайнов из Яндекса:
руководитель лаборатории машинного интеллекта, Яндекс
Адель Валиуллин, в свою очередь, напоминает, что такие области как большие данные и ИИ активно развиваются и входят в большее количество сфер: медицина, финансы, образование, транспорт и др. А значит, регулирование в этой области неизбежно. Владимир Новоселов из Mail.Ru Group уточняет, что эта работа в интересах индустрии уже активно ведется:
бизнес-архитектор Predictive Analytic Solutions, Mail.ru Group
Напомним, что 24 апреля Владимир Путин подписал закон об экспериментальном правовом режиме для ИИ-разработчиков в Москве. Он должен вступить в силу 1 июля и продлиться пять лет.
Больше информации о разработках в области искусственного интеллекта можно посмотреть в Базе знаний ИИ.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.