Как обойти ошибки при очистке данных от дубликатов с помощью Apache Hive

IT_ONE

Анна Зверькова из компании IT_One выступила с презентацией на митапе «IT_One Data Meetup: обработка и хранение данных» 29 июня.

В презентации на примере финансовых данных рассказывается о существующих способах и проблемах дедупликации большого объема данных невысокого уровня качества, а также о методах решения проблем с помощью Apache Hive и других инструментов.

Тематика:

#хранение_данных

Технологии:

#большие_данные

Компании:

#IT_One

Расскажите знакомым:

160Дата добавления:07.07.2023
160Дата добавления:07.07.2023
Добавить мою презентацию
на ICT.Moscow
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0