TAdviser и DIS Group представили обзор, посвященный трендвотчингу рынка Data Lakehouse (подход к архитектуре данных и инструментам для его реализации, который объединяет свойства и преимущества озера данных (Data Lake) и хранилища данных (Data Warehouse).
Материал базируется на изучении ключевых тем российского и мирового рынка Data Lakehouse и основных трендах на 2025 год. В качестве источников информации были использованы данные TAdviser, CNews, «Открытые системы», «Интерфакс», а также зарубежные Cloudera, Databricks, Google, IBM и других.
Ключевые выводы:
- на глобальном рынке объем сгенерированных данных в 2026 году достигнет не менее 220 зеттабайт, и дальнейший рост оценивается в 25–30% каждый год. Таким образом, все большая часть данных, ранее относившихся к «темным», будут попадать в поле зрения дата-аналитиков. Это будет порождать востребованность в инструментах по обеспечению доступа к ним и обработке;
- использование данных и аналитики на их основе выходит из сферы компетенций исключительно дата-аналитиков и дата-инженеров и становится деятельностью руководителей и линейного персонала в маркетинге, планировании, продажах. Это порождает стремительный рост новых сценариев применения данных;
- ИИ и LLM также уже являются ключевыми потребителями данных. Использование достоверных и своевременных данных любого вида является критической составляющей успешности функционирования ИИ-агентов;
- к глобальным технологическим трендам Data Lakehouse аналитики относят платформизацию продуктового предложения, открытые табличные форматы (рост популярности Iceberg, появление Paimon), дальнейшее развитие каталогов данных, мультиоблачную и гибридную поддержку, совершенствование архитектуры Lakehouse для ИИ, периферийную обработку данных в IoT-средах, а также развитие практик DataOps и Data as Code;
- на российском рынке восход понятия Data Lakehouse совпал по времени с массовым уходом западных вендоров. Отечественные проекты в 2022–2023 годах начинались как интеграционные проекты на доступных отечественных и Open Source — компонентах, зачастую совмещаясь с проектами импортозамещения. Еще одной особенностью российского рынка больших данных является сохраняющийся невысокий уровень доверия к размещению и обработке данных в публичных облаках;
- факторами принятия решения при выборе российских Lakehouse-платформ могут стать возможности демократизации данных (включая ИИ-реализации), поддержка современных открытых форматов данных, возможности DataOps и полноценная работа с качеством данных;
- по прогнозам авторов документа, в ближайшие годы высока вероятность появления в России внедрений Lakehouse в модели гибридного или публичного облака, так как «стоимость входа» в случае облачных решений, как правило, значительно ниже;
- к трендам отечественного рынка на ближайшие два года аналитики относят открытые форматы данных (рост популярности Iceberg), платформизацию продуктового предложения Data Lakehouse, а также каталоги данных. Сейчас эти инструменты начинают применяться в промышленных масштабах;
- к более отдаленным трендам (до пяти лет) относятся каталогизация ML- и LLM-моделей, ИИ-помощники для рутинных задач, автодополнение метаданных и каталогизация. В течение десяти лет речь может идти о таких трендах, как мультиоблачная и гибридная поддержка, Auto ML, периферийная обработка данных в IoT-средах.