Термин · Глоссарий B2B-ПО

Прием данных (Data Ingestion)

Приём данных (Data Ingestion) – процесс импорта данных из различных источников в систему хранения или обработки (Data Lake, Data Warehouse, потоковую платформу) для последующего анализа. Включает пакетную загрузку (batch) и потоковую передачу данных в реальном времени (streaming).

Буква «П» В категориях: 4 Платформ: 6+

Введение

Приём данных (Data Ingestion) – первый этап пайплайна обработки данных, заключающийся в извлечении и загрузке данных из разнородных источников (OLTP-баз данных, API, IoT-устройств, файловых систем, потоковых брокеров сообщений) в централизованное хранилище – Data Lake, Data Warehouse или платформу потоковой обработки. Качество и надёжность процесса ingestion напрямую определяет достоверность последующей аналитики.

Data Ingestion является отдельным и критически важным этапом современных дата-инженерных архитектур: Lambda и Kappa. Инструменты ingestion – Apache Kafka, Apache NiFi, Debezium, AWS Kinesis, Airbyte – составляют отдельный класс Data Engineering ПО.

История и контекст

До появления специализированных инструментов ingestion данные загружались в хранилища через специализированные ETL-инструменты (Informatica PowerCenter, IBM DataStage). С ростом объёмов данных и появлением Big Data-платформ (Hadoop, 2006) потребовались высокопроизводительные решения для параллельной загрузки петабайт данных.

Революцией стало появление Apache Kafka (LinkedIn, 2011) – распределённого брокера сообщений, ставшего стандартом де-факто для потокового ingestion. В 2020-х годах сформировался класс «reverse ETL» – загрузка данных в обратном направлении, из хранилища обратно в операционные системы.

Как это работает

Существует два основных режима Data Ingestion:

  • Пакетный (Batch) – данные загружаются партиями по расписанию (раз в час, в день). Инструменты: Apache Spark, Airbyte, Fivetran, Informatica. Применяется для больших объёмов исторических данных.
  • Потоковый (Streaming / Real-time) – данные обрабатываются непрерывно по мере поступления. Инструменты: Apache Kafka, Apache Flink, AWS Kinesis. Применяется для событийных данных IoT, транзакций, кликов.

Ключевые паттерны ingestion:

  • CDC (Change Data Capture) – захват только изменений в базе источника (Debezium, Oracle GoldenGate).
  • Full Load – полная выгрузка таблицы при каждом запуске.
  • Incremental Load – выгрузка только новых/изменённых записей по timestamp или watermark.

Где применяется

  • Построение Data Lake/DWH – загрузка данных из CRM, ERP, API в хранилище.
  • Real-time аналитика – потоковая обработка транзакций, IoT-данных.
  • Machine Learning – загрузка обучающих данных в ML-платформы.
  • Мониторинг – ingestion логов и метрик в Elasticsearch, ClickHouse.

Преимущества и ограничения

Преимущества надёжного ingestion: единый источник истины для аналитики; снижение нагрузки на операционные системы-источники; возможность real-time дашбордов и оповещений.

Ограничения: сложность обеспечения schema evolution (изменения схемы источника); управление качеством данных на этапе ingestion; высокая стоимость streaming-платформ при больших объёмах.

Связь с другими понятиями

Data Ingestion является первым этапом в архитектуре Data Lake и Data Warehouse. Data Integration Tools включают инструменты ingestion как ключевую функцию. Data Lineage отслеживает происхождение данных, начиная с этапа ingestion. Data Quality Tools применяются для валидации данных на входе. DataOps обеспечивает CI/CD-практики для управления ingestion-пайплайнами.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Прием данных».

Платформы класса «Прием данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ClickHouse

ClickHouse

ИТ-инфраструктура
ClickHouse — колоночная аналитическая СУБД (OLAP), созданная Яндексом и открытая в 2016 году. Обеспечивает обр...
Цена по запросу
★ 4.8
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →
Электронный справочник, содержащий актуальную нормативно-правовую базу в сфере внешнеэкономической деятельност...
Цена по запросу
★ 4.2
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Прием данных».

Где применяется

Отрасли, в которых «Прием данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Прием данных

Что такое Data Ingestion?

Процесс импорта данных из различных источников в систему хранения (Data Lake, DWH) для последующего анализа. Включает batch и streaming режимы.

Чем batch отличается от streaming ingestion?

Batch – загрузка данных партиями по расписанию. Streaming – непрерывная обработка данных в реальном времени. Kafka, Flink – для streaming; Spark, Airbyte – для batch.

Что такое CDC?

Change Data Capture – паттерн захвата только изменений (INSERT/UPDATE/DELETE) из базы данных-источника. Инструменты: Debezium, Oracle GoldenGate. Снижает нагрузку на источник.

Какие инструменты используют для Data Ingestion?

Apache Kafka, Apache NiFi, Debezium, Airbyte, Fivetran для ETL. ClickHouse, Apache Flink для потоковой обработки. В России – ClickHouse (id: 5791), Tarantool.

Чем Data Ingestion отличается от ETL?

Ingestion – только загрузка сырых данных в хранилище. ETL включает Extraction, Transformation и Loading. Ingestion – подмножество Extract-фазы ETL.