Термин · Глоссарий B2B-ПО

Прием данных (Data Ingestion)

Приём данных (Data Ingestion) – процесс импорта данных из различных источников в систему хранения или обработки (Data Lake, Data Warehouse, потоковую платформу) для последующего анализа. Включает пакетную загрузку (batch) и потоковую передачу данных в реальном времени (streaming).

Буква «П» В категориях: 4 Платформ: 6+

Введение

Приём данных (Data Ingestion) – первый этап пайплайна обработки данных, заключающийся в извлечении и загрузке данных из разнородных источников (OLTP-баз данных, API, IoT-устройств, файловых систем, потоковых брокеров сообщений) в централизованное хранилище – Data Lake, Data Warehouse или платформу потоковой обработки. Качество и надёжность процесса ingestion напрямую определяет достоверность последующей аналитики.

Data Ingestion является отдельным и критически важным этапом современных дата-инженерных архитектур: Lambda и Kappa. Инструменты ingestion – Apache Kafka, Apache NiFi, Debezium, AWS Kinesis, Airbyte – составляют отдельный класс Data Engineering ПО.

История и контекст

До появления специализированных инструментов ingestion данные загружались в хранилища через специализированные ETL-инструменты (Informatica PowerCenter, IBM DataStage). С ростом объёмов данных и появлением Big Data-платформ (Hadoop, 2006) потребовались высокопроизводительные решения для параллельной загрузки петабайт данных.

Революцией стало появление Apache Kafka (LinkedIn, 2011) – распределённого брокера сообщений, ставшего стандартом де-факто для потокового ingestion. В 2020-х годах сформировался класс «reverse ETL» – загрузка данных в обратном направлении, из хранилища обратно в операционные системы.

Как это работает

Существует два основных режима Data Ingestion:

Пакетный (Batch) – данные загружаются партиями по расписанию (раз в час, в день). Инструменты: Apache Spark, Airbyte, Fivetran, Informatica. Применяется для больших объёмов исторических данных.
Потоковый (Streaming / Real-time) – данные обрабатываются непрерывно по мере поступления. Инструменты: Apache Kafka, Apache Flink, AWS Kinesis. Применяется для событийных данных IoT, транзакций, кликов.

Ключевые паттерны ingestion:

CDC (Change Data Capture) – захват только изменений в базе источника (Debezium, Oracle GoldenGate).
Full Load – полная выгрузка таблицы при каждом запуске.
Incremental Load – выгрузка только новых/изменённых записей по timestamp или watermark.

Где применяется

Построение Data Lake/DWH – загрузка данных из CRM, ERP, API в хранилище.
Real-time аналитика – потоковая обработка транзакций, IoT-данных.
Machine Learning – загрузка обучающих данных в ML-платформы.
Мониторинг – ingestion логов и метрик в Elasticsearch, ClickHouse.

Преимущества и ограничения

Преимущества надёжного ingestion: единый источник истины для аналитики; снижение нагрузки на операционные системы-источники; возможность real-time дашбордов и оповещений.

Ограничения: сложность обеспечения schema evolution (изменения схемы источника); управление качеством данных на этапе ingestion; высокая стоимость streaming-платформ при больших объёмах.

Связь с другими понятиями

Data Ingestion является первым этапом в архитектуре Data Lake и Data Warehouse. Data Integration Tools включают инструменты ingestion как ключевую функцию. Data Lineage отслеживает происхождение данных, начиная с этапа ingestion. Data Quality Tools применяются для валидации данных на входе. DataOps обеспечивает CI/CD-практики для управления ingestion-пайплайнами.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Прием данных».

Платформы класса «Прием данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

ClickHouse

ИТ-инфраструктура

ClickHouse — колоночная аналитическая СУБД (OLAP), созданная Яндексом и открытая в 2016 году. Обеспечивает обр...

Цена по запросу

★ 4.8

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

ABCP

Платформа ABCP

Цена по запросу

Подробнее →

ВЭД-Инфо

Электронный справочник, содержащий актуальную нормативно-правовую базу в сфере внешнеэкономической деятельност...

Цена по запросу

★ 4.2

Подробнее →

Инструментальная система управления базами данных "CronosPRO"

ИТ-инфраструктура

Инструментальная нереляционная (сетевая) СУБД для построения информационных систем с гибкой структурой данных....

Цена по запросу

★ 4.2

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Прием данных».

Управление данными Интеграция Хранилища данных (DWH) Озера данных (Data Lake)

Где применяется

Отрасли, в которых «Прием данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Промышленность и производство

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Торговля (оптовая и розничная)

Связь и телеком

Частые вопросы про Прием данных

Что такое Data Ingestion?

Процесс импорта данных из различных источников в систему хранения (Data Lake, DWH) для последующего анализа. Включает batch и streaming режимы.

Чем batch отличается от streaming ingestion?

Batch – загрузка данных партиями по расписанию. Streaming – непрерывная обработка данных в реальном времени. Kafka, Flink – для streaming; Spark, Airbyte – для batch.

Что такое CDC?

Change Data Capture – паттерн захвата только изменений (INSERT/UPDATE/DELETE) из базы данных-источника. Инструменты: Debezium, Oracle GoldenGate. Снижает нагрузку на источник.

Какие инструменты используют для Data Ingestion?

Apache Kafka, Apache NiFi, Debezium, Airbyte, Fivetran для ETL. ClickHouse, Apache Flink для потоковой обработки. В России – ClickHouse (id: 5791), Tarantool.

Чем Data Ingestion отличается от ETL?

Ingestion – только загрузка сырых данных в хранилище. ETL включает Extraction, Transformation и Loading. Ingestion – подмножество Extract-фазы ETL.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Прием данных»

ClickHouse

Tarantool Data Grid

ABCP

ВЭД-Инфо

Инструментальная система управления базами данных "CronosPRO"

БАРС.Мониторинг-ЖКХ

Категории каталога

Где применяется

Частые вопросы про Прием данных

Что такое Data Ingestion?

Чем batch отличается от streaming ingestion?

Что такое CDC?

Какие инструменты используют для Data Ingestion?

Чем Data Ingestion отличается от ETL?

Контур Доверенность

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли