概念漂移
编辑在预测分析和机器学习中,概念漂移是指模型试图预测的目标变量的统计属性以不可预见的方式随时间变化。这就造成了问题,因为随着时间的推移,预测的准确性会降低。概念一词指的是要预测的数量。更广泛地说,除了目标概念,它还可以指其他感兴趣的现象,如输入,但在概念漂移的背景下,这个术语通常指的是目标变量。
概念漂移的例子
编辑在一个天气预测应用中,可能有几个目标概念,如温度、压力和湿度。网上商店中顾客的行为可能会随着时间的推移而改变。例如,如果要预测每周的商品销售,并且已经开发了一个预测模型,效果令人满意。该模型可能使用诸如花在广告上的钱、正在进行的促销活动以及其他可能影响销售的指标等输入。随着时间的推移,该模型可能会变得越来越不准确,这就是概念漂移。在商品销售的应用中,概念漂移的一个原因可能是季节性,这意味着购物行为随季节变化。例如,也许在冬季假日季节的销售额会比夏季高。当构成数据集的协变量开始不太准确地解释你的目标集的变化时,通常会发生概念漂移--可能出现了一些混杂的变量,而我们根本无法解释这些变量,这使得模型的准确性随着时间的推移逐渐降低。一般来说,我们建议将健康检查作为生产后分析的一部分,并在出现概念漂移的迹象时用新的假设重新训练模型。
可能的补救措施
编辑为了防止因概念漂移而导致的预测精度下降,可以采用反应式和跟踪式解决方案。反应式解决方案在对触发机制(如变化检测测试)作出反应时重新训练模型,以明确检测概念漂移作为数据生成过程的统计数据的变化。当检测到概念漂移时,当前的模型不再是最新的,必须用一个新的模型来替代,以恢复预测的准确性。反应式方法的一个缺点是,在检测到变化之前,性能可能会下降。追踪解决方案试图通过不断地更新模型来追踪概念的变化。实现这一目标的方法包括在线机器学习、对最近观察到的样本进行频繁的再训练,以及维持一个分类器集合,其中一个新的分类器在最近的一批例子上进行训练,并取代集合中最老的分类器。
这是因为实际的购物行为并不遵循任何静态的、有限的模型。新的因素可能在任何时候出现,影响购物行为,已知因素的影响或它们的相互作用可能会改变。对于不受固定自然规律支配的复杂现象,概念漂移是无法避免的。所有产生于人类活动的过程,如社会经济过程,以及生物过程,都有可能经历概念漂移。因此,任何模型的定期再训练,也被称为刷新,是必要的。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175527/