Data Lake
Введение
Data Lake (озеро данных) – централизованное хранилище, предназначенное для хранения данных в их исходном (нативном) формате из разнородных источников: структурированных (базы данных), полуструктурированных (JSON, XML, логи) и неструктурированных (изображения, видео, текст). В отличие от Data Warehouse, в котором данные перед загрузкой проходят ETL-трансформацию под заданную схему, Data Lake применяет принцип «schema on read» – схема данных определяется не при записи, а при чтении под конкретную аналитическую задачу.
Термин «Data Lake» был введён основателем Pentaho Джеймсом Диксоном в 2010 году в противовес «Data Mart» – «маленькому резервуару с очищенной водой для конкретной цели». Data Lake – «огромное природное тело воды, где данные текут в своём природном состоянии».
История и контекст
Data Lake появился как ответ на ограничения традиционных DWH при работе с Big Data. Hadoop HDFS (2006) стал первым массово доступным хранилищем для петабайт данных по низкой стоимости. С появлением облачных объектных хранилищ (Amazon S3, 2006; Azure ADLS; Yandex Object Storage) стоимость хранения снизилась до центов за ГБ, что сделало Data Lake доступным для всех организаций.
В 2020-х годах сформировался гибридный архитектурный паттерн Data Lakehouse, объединяющий гибкость Data Lake и производительность DWH через форматы Delta Lake, Apache Iceberg, Apache Hudi.
Как это работает
Архитектура Data Lake обычно включает несколько зон:
- Raw Zone (Bronze) – сырые данные в исходном формате, неизменяемые после загрузки.
- Processed Zone (Silver) – очищенные, дедуплицированные данные с базовыми трансформациями.
- Curated Zone (Gold) – агрегированные, готовые к анализу датасеты, оптимизированные для BI.
Ключевые технологии: Apache Spark (обработка), Delta Lake / Apache Iceberg (table format), Apache Parquet / ORC (колоночные форматы хранения), Apache Hive Metastore (каталог метаданных).
Где применяется
- Data Science и Machine Learning – хранение обучающих данных в полном объёме.
- Аналитика логов и событий – IoT, clickstream, системные логи.
- Архивирование и compliance – хранение исторических данных для регуляторных нужд.
- Реорганизация корпоративной дата-архитектуры – единый источник сырых данных для всех потребителей.
Преимущества и ограничения
Преимущества: низкая стоимость хранения; гибкость – любые типы данных без предварительного схемирования; масштабируемость до петабайт; поддержка ML/Data Science workloads.
Ограничения: риск превращения в «Data Swamp» (болото данных) без Data Governance; низкая производительность сложных аналитических запросов по сравнению с DWH; сложность управления метаданными.
Связь с другими понятиями
Data Lake часто противопоставляется Data Warehouse и дополняется им в современных архитектурах. Data Lakehouse объединяет оба подхода. Dark Data скапливается в Raw-зоне Data Lake при отсутствии Data Governance. Data Ingestion обеспечивает загрузку данных в озеро. Data Lineage отслеживает трансформации данных между зонами Lake.