Термин · Глоссарий B2B-ПО

Дрейф данных

Изменение статистических характеристик входных данных в production-среде относительно обучающей выборки с течением времени. Дрейф данных (data drift) приводит к деградации качества предсказаний и является основной причиной необходимости регулярного переобучения ML-моделей.

Буква «Д» В категориях: 3 Платформ: 6+

Введение

Дрейф данных (Data Drift) – явление изменения статистических свойств входных данных, поступающих в ML-модель в production-среде, по сравнению с обучающей выборкой. Поскольку ML-модель оптимизирована под конкретное распределение данных, при его изменении качество предсказаний падает – даже если сам код и веса модели остаются неизменными.

Дрейф данных является одной из ключевых причин необходимости мониторинга модели и регулярного переобучения в production-системах.

История и контекст

Проблема дрейфа данных была формализована в академической литературе в 2000-х годах в контексте «concept drift» – изменения зависимости между входными признаками и целевой переменной. С распространением production ML-систем в 2016–2020 годах дрейф данных стал прикладной инженерной задачей. Появились инструменты мониторинга: Evidently AI, WhyLabs, Arize AI, NannyML. MLflow и KubeFlow интегрировали базовый drift-мониторинг в свои пайплайны.

Как это работает

Выделяют несколько типов дрейфа:

Covariate shift (дрейф признаков) – меняется распределение P(X) при неизменной зависимости P(Y|X). Например, в кредитном скоринге изменился возрастной состав заявителей.
Prior probability shift (дрейф меток) – меняется базовая частота классов P(Y). Например, выросла доля мошеннических транзакций из-за новой схемы мошенничества.
Concept drift – меняется сама зависимость P(Y|X): то, что раньше было признаком мошенничества, теперь является нормальным поведением (и наоборот).

Методы детектирования дрейфа данных:

Статистические тесты – KS-тест (Колмогорова–Смирнова), PSI (Population Stability Index), χ²-тест для категориальных признаков.
Дивергенция – KL-дивергенция, JS-дивергенция между обучающим и текущим распределениями.
Модельный мониторинг – периодическое сравнение предсказаний с фактическими результатами (при наличии ground truth).

Где применяется

Финансы и антифрод – быстро меняющееся поведение мошенников требует частого переобучения антифрод-моделей.
Рекомендательные системы – предпочтения пользователей меняются со временем (сезонность, тренды).
Промышленный IoT – показания датчиков меняются из-за износа оборудования или изменения условий работы.
NLP-модели – язык и лексика изменяются (новые термины, события), что снижает качество классификаторов текста.
Медицинская диагностика – изменение популяции пациентов или диагностических протоколов.

Преимущества и ограничения

Своевременное обнаружение дрейфа позволяет: инициировать переобучение до значительной деградации качества; выявлять проблемы с качеством данных и pipeline; принимать обоснованные решения о жизненном цикле модели. Ограничения: не всякий дрейф ведёт к деградации (безвредный дрейф); для детектирования concept drift требуется накопление ground truth, что занимает время; ложные срабатывания детектора могут приводить к излишнему переобучению.

Связь с другими понятиями

Дрейф данных – ключевое явление, которое отслеживает Мониторинг модели. Feature Store предоставляет исторические статистики признаков как baseline для сравнения. A/B-тест модели позволяет проверить, улучшает ли новая версия модели результаты при наличии дрейфа. Аугментация данных и Semi-supervised Learning используются для компенсации дрейфа при ограниченной разметке. AutoML может автоматизировать переобучение при обнаружении дрейфа.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Дрейф данных».

Платформы класса «Дрейф данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

НЕ

Нейромодуль

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...

Цена по запросу

Подробнее →

SDP DataLab

Машинное обучение

SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...

Цена по запросу

★ 4.7

Подробнее →

OneRPA платформа роботизации рутинных процессов

Данные и аналитика

Платформа RPA

Цена по запросу

Подробнее →

Lasvilla Искусственный Интеллект В ЖКХ

Чат Бот это удобное решение для взаимодействия с Вашими абонентами.

Цена по запросу

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Дрейф данных».

Данные и аналитика ML-платформы AIOps платформы

Где применяется

Отрасли, в которых «Дрейф данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Промышленность и производство

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Частые вопросы про Дрейф данных

Чем data drift отличается от concept drift?

Data drift – меняется распределение входных данных P(X). Concept drift – меняется зависимость между признаками и целевой переменной P(Y|X). Concept drift опаснее, так как старая модель принципиально неверна.

Как обнаружить дрейф данных?

Статистические тесты (KS-тест, PSI, χ²), мониторинг распределений признаков в реальном времени, сравнение предсказаний с ground truth через задержку (delayed labeling).

Как часто нужно переобучать модель при дрейфе?

Зависит от скорости дрейфа и ценности точности. Антифрод-модели обновляются еженедельно или чаще; промышленные прогностические – ежеквартально.

Что такое PSI (Population Stability Index)?

Метрика устойчивости распределения: PSI < 0,1 – стабильно, 0,1–0,25 – незначительный дрейф, > 0,25 – существенный. Широко используется в кредитном скоринге.

Влияет ли дрейф данных на LLM?

Да. Языковой дрейф (новые термины, события после даты cut-off), изменение пользовательских запросов – всё это снижает качество LLM-приложений. RAG частично решает проблему актуальности знаний.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Дрейф данных»

Нейромодуль

SDP DataLab

OneRPA платформа роботизации рутинных процессов

Lasvilla Искусственный Интеллект В ЖКХ

БАРС.Мониторинг-ЖКХ

Tarantool Data Grid

Категории каталога

Где применяется

Частые вопросы про Дрейф данных

Чем data drift отличается от concept drift?

Как обнаружить дрейф данных?

Как часто нужно переобучать модель при дрейфе?

Что такое PSI (Population Stability Index)?

Влияет ли дрейф данных на LLM?

Контур Доверенность

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли