Введение
Дрейф данных (Data Drift) – явление изменения статистических свойств входных данных, поступающих в ML-модель в production-среде, по сравнению с обучающей выборкой. Поскольку ML-модель оптимизирована под конкретное распределение данных, при его изменении качество предсказаний падает – даже если сам код и веса модели остаются неизменными.
Дрейф данных является одной из ключевых причин необходимости мониторинга модели и регулярного переобучения в production-системах.
История и контекст
Проблема дрейфа данных была формализована в академической литературе в 2000-х годах в контексте «concept drift» – изменения зависимости между входными признаками и целевой переменной. С распространением production ML-систем в 2016–2020 годах дрейф данных стал прикладной инженерной задачей. Появились инструменты мониторинга: Evidently AI, WhyLabs, Arize AI, NannyML. MLflow и KubeFlow интегрировали базовый drift-мониторинг в свои пайплайны.
Как это работает
Выделяют несколько типов дрейфа:
- Covariate shift (дрейф признаков) – меняется распределение P(X) при неизменной зависимости P(Y|X). Например, в кредитном скоринге изменился возрастной состав заявителей.
- Prior probability shift (дрейф меток) – меняется базовая частота классов P(Y). Например, выросла доля мошеннических транзакций из-за новой схемы мошенничества.
- Concept drift – меняется сама зависимость P(Y|X): то, что раньше было признаком мошенничества, теперь является нормальным поведением (и наоборот).
Методы детектирования дрейфа данных:
- Статистические тесты – KS-тест (Колмогорова–Смирнова), PSI (Population Stability Index), χ²-тест для категориальных признаков.
- Дивергенция – KL-дивергенция, JS-дивергенция между обучающим и текущим распределениями.
- Модельный мониторинг – периодическое сравнение предсказаний с фактическими результатами (при наличии ground truth).
Где применяется
- Финансы и антифрод – быстро меняющееся поведение мошенников требует частого переобучения антифрод-моделей.
- Рекомендательные системы – предпочтения пользователей меняются со временем (сезонность, тренды).
- Промышленный IoT – показания датчиков меняются из-за износа оборудования или изменения условий работы.
- NLP-модели – язык и лексика изменяются (новые термины, события), что снижает качество классификаторов текста.
- Медицинская диагностика – изменение популяции пациентов или диагностических протоколов.
Преимущества и ограничения
Своевременное обнаружение дрейфа позволяет: инициировать переобучение до значительной деградации качества; выявлять проблемы с качеством данных и pipeline; принимать обоснованные решения о жизненном цикле модели. Ограничения: не всякий дрейф ведёт к деградации (безвредный дрейф); для детектирования concept drift требуется накопление ground truth, что занимает время; ложные срабатывания детектора могут приводить к излишнему переобучению.
Связь с другими понятиями
Дрейф данных – ключевое явление, которое отслеживает Мониторинг модели. Feature Store предоставляет исторические статистики признаков как baseline для сравнения. A/B-тест модели позволяет проверить, улучшает ли новая версия модели результаты при наличии дрейфа. Аугментация данных и Semi-supervised Learning используются для компенсации дрейфа при ограниченной разметке. AutoML может автоматизировать переобучение при обнаружении дрейфа.