С течением времени распределение случайных величин (целевая величина, описательные признаки) - может меняться. На картинке ниже представлено распределение одной случайной величины в разные моменты времени (при обучении модели и спустя 14 дней после развертывания в проде).
Мы с вами обсудили понятия операционного мониторинга и мониторинга явления Model Drift. Давайте теперь полностью сфокусируемся на проблеме Model Drift’a и ее природе и проявлениях. И так, зафиксируем для себя два момента времени - момент обучения модели, и один из моментов инференса модели. В оба момента времени мы работаем с данными, которые могут быть порождены разными распределениями.
Первое распределение можно назвать исходным (source distribution), и при обучении модели мы используем выборку из этого распределения. Второе распределение мы можем обозначить как целевое распределение (target distribution), и на целевом распределении выполняется инференс модели.
Как правило, чем больше прошло времени между моментом обучения и моментом инференса, тем сильнее характеристики этих двух распределений расходятся. Расхождение распределений может быть как плавным - в случае постепенного смещения харакретистик распределения с течением времени, так и скачкообразно - если в модель начали подавать данные из другой генеральной совокупности.
Описанное явление, как правило, приводит к видимому проявлению Model Drift’a - деградации качества модели и падении целевых метрик. Давайте рассмотрим простенький пример Model Drift’a.