Термин · Глоссарий B2B-ПО

Дрейф данных

Изменение статистических характеристик входных данных в production-среде относительно обучающей выборки с течением времени. Дрейф данных (data drift) приводит к деградации качества предсказаний и является основной причиной необходимости регулярного переобучения ML-моделей.

Буква «Д» В категориях: 3 Платформ: 6+

Введение

Дрейф данных (Data Drift) – явление изменения статистических свойств входных данных, поступающих в ML-модель в production-среде, по сравнению с обучающей выборкой. Поскольку ML-модель оптимизирована под конкретное распределение данных, при его изменении качество предсказаний падает – даже если сам код и веса модели остаются неизменными.

Дрейф данных является одной из ключевых причин необходимости мониторинга модели и регулярного переобучения в production-системах.

История и контекст

Проблема дрейфа данных была формализована в академической литературе в 2000-х годах в контексте «concept drift» – изменения зависимости между входными признаками и целевой переменной. С распространением production ML-систем в 2016–2020 годах дрейф данных стал прикладной инженерной задачей. Появились инструменты мониторинга: Evidently AI, WhyLabs, Arize AI, NannyML. MLflow и KubeFlow интегрировали базовый drift-мониторинг в свои пайплайны.

Как это работает

Выделяют несколько типов дрейфа:

  • Covariate shift (дрейф признаков) – меняется распределение P(X) при неизменной зависимости P(Y|X). Например, в кредитном скоринге изменился возрастной состав заявителей.
  • Prior probability shift (дрейф меток) – меняется базовая частота классов P(Y). Например, выросла доля мошеннических транзакций из-за новой схемы мошенничества.
  • Concept drift – меняется сама зависимость P(Y|X): то, что раньше было признаком мошенничества, теперь является нормальным поведением (и наоборот).

Методы детектирования дрейфа данных:

  • Статистические тесты – KS-тест (Колмогорова–Смирнова), PSI (Population Stability Index), χ²-тест для категориальных признаков.
  • Дивергенция – KL-дивергенция, JS-дивергенция между обучающим и текущим распределениями.
  • Модельный мониторинг – периодическое сравнение предсказаний с фактическими результатами (при наличии ground truth).

Где применяется

  • Финансы и антифрод – быстро меняющееся поведение мошенников требует частого переобучения антифрод-моделей.
  • Рекомендательные системы – предпочтения пользователей меняются со временем (сезонность, тренды).
  • Промышленный IoT – показания датчиков меняются из-за износа оборудования или изменения условий работы.
  • NLP-модели – язык и лексика изменяются (новые термины, события), что снижает качество классификаторов текста.
  • Медицинская диагностика – изменение популяции пациентов или диагностических протоколов.

Преимущества и ограничения

Своевременное обнаружение дрейфа позволяет: инициировать переобучение до значительной деградации качества; выявлять проблемы с качеством данных и pipeline; принимать обоснованные решения о жизненном цикле модели. Ограничения: не всякий дрейф ведёт к деградации (безвредный дрейф); для детектирования concept drift требуется накопление ground truth, что занимает время; ложные срабатывания детектора могут приводить к излишнему переобучению.

Связь с другими понятиями

Дрейф данных – ключевое явление, которое отслеживает Мониторинг модели. Feature Store предоставляет исторические статистики признаков как baseline для сравнения. A/B-тест модели позволяет проверить, улучшает ли новая версия модели результаты при наличии дрейфа. Аугментация данных и Semi-supervised Learning используются для компенсации дрейфа при ограниченной разметке. AutoML может автоматизировать переобучение при обнаружении дрейфа.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Дрейф данных».

Платформы класса «Дрейф данных»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...
Цена по запросу
Подробнее →
SD

SDP DataLab

Машинное обучение
SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...
Цена по запросу
★ 4.7
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Дрейф данных».

Где применяется

Отрасли, в которых «Дрейф данных» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Дрейф данных

Чем data drift отличается от concept drift?

Data drift – меняется распределение входных данных P(X). Concept drift – меняется зависимость между признаками и целевой переменной P(Y|X). Concept drift опаснее, так как старая модель принципиально неверна.

Как обнаружить дрейф данных?

Статистические тесты (KS-тест, PSI, χ²), мониторинг распределений признаков в реальном времени, сравнение предсказаний с ground truth через задержку (delayed labeling).

Как часто нужно переобучать модель при дрейфе?

Зависит от скорости дрейфа и ценности точности. Антифрод-модели обновляются еженедельно или чаще; промышленные прогностические – ежеквартально.

Что такое PSI (Population Stability Index)?

Метрика устойчивости распределения: PSI < 0,1 – стабильно, 0,1–0,25 – незначительный дрейф, > 0,25 – существенный. Широко используется в кредитном скоринге.

Влияет ли дрейф данных на LLM?

Да. Языковой дрейф (новые термины, события после даты cut-off), изменение пользовательских запросов – всё это снижает качество LLM-приложений. RAG частично решает проблему актуальности знаний.