Data Lake

Введение

Data Lake (озеро данных) – централизованное хранилище, предназначенное для хранения данных в их исходном (нативном) формате из разнородных источников: структурированных (базы данных), полуструктурированных (JSON, XML, логи) и неструктурированных (изображения, видео, текст). В отличие от Data Warehouse, в котором данные перед загрузкой проходят ETL-трансформацию под заданную схему, Data Lake применяет принцип «schema on read» – схема данных определяется не при записи, а при чтении под конкретную аналитическую задачу.

Термин «Data Lake» был введён основателем Pentaho Джеймсом Диксоном в 2010 году в противовес «Data Mart» – «маленькому резервуару с очищенной водой для конкретной цели». Data Lake – «огромное природное тело воды, где данные текут в своём природном состоянии».

История и контекст

Data Lake появился как ответ на ограничения традиционных DWH при работе с Big Data. Hadoop HDFS (2006) стал первым массово доступным хранилищем для петабайт данных по низкой стоимости. С появлением облачных объектных хранилищ (Amazon S3, 2006; Azure ADLS; Yandex Object Storage) стоимость хранения снизилась до центов за ГБ, что сделало Data Lake доступным для всех организаций.

В 2020-х годах сформировался гибридный архитектурный паттерн Data Lakehouse, объединяющий гибкость Data Lake и производительность DWH через форматы Delta Lake, Apache Iceberg, Apache Hudi.

Как это работает

Архитектура Data Lake обычно включает несколько зон:

  • Raw Zone (Bronze) – сырые данные в исходном формате, неизменяемые после загрузки.
  • Processed Zone (Silver) – очищенные, дедуплицированные данные с базовыми трансформациями.
  • Curated Zone (Gold) – агрегированные, готовые к анализу датасеты, оптимизированные для BI.

Ключевые технологии: Apache Spark (обработка), Delta Lake / Apache Iceberg (table format), Apache Parquet / ORC (колоночные форматы хранения), Apache Hive Metastore (каталог метаданных).

Где применяется

  • Data Science и Machine Learning – хранение обучающих данных в полном объёме.
  • Аналитика логов и событий – IoT, clickstream, системные логи.
  • Архивирование и compliance – хранение исторических данных для регуляторных нужд.
  • Реорганизация корпоративной дата-архитектуры – единый источник сырых данных для всех потребителей.

Преимущества и ограничения

Преимущества: низкая стоимость хранения; гибкость – любые типы данных без предварительного схемирования; масштабируемость до петабайт; поддержка ML/Data Science workloads.

Ограничения: риск превращения в «Data Swamp» (болото данных) без Data Governance; низкая производительность сложных аналитических запросов по сравнению с DWH; сложность управления метаданными.

Связь с другими понятиями

Data Lake часто противопоставляется Data Warehouse и дополняется им в современных архитектурах. Data Lakehouse объединяет оба подхода. Dark Data скапливается в Raw-зоне Data Lake при отсутствии Data Governance. Data Ingestion обеспечивает загрузку данных в озеро. Data Lineage отслеживает трансформации данных между зонами Lake.