简介
编辑在统计学和机器学习中,泄漏(也称为数据泄漏或目标泄漏)是指在模型训练过程中使用了预计在预测时不会出现的信息,导致预测分数(指标)在生产环境中运行时高估了模型的效用。泄漏往往是微妙和间接的,因此很难检测和消除。泄漏可能导致统计员或建模者选择一个次优模型,而这个模型可能被无泄漏的模型所胜过。
泄漏模式
编辑泄漏可能发生在机器学习过程中的许多步骤。泄漏原因可以细分为模型的两个可能的泄漏源:特征和训练实例。
特征泄漏
编辑特征或列式泄漏是由包含以下之一的列引起的:重复的标签、标签的代理、或标签本身。这些被称为不合时宜的特征,在模型用于预测时将不可用,如果在模型训练时包含这些特征就会导致泄漏。例如,在预测YearlySalary时包括MonthlySalary列;或在预测IsLate时包括MinutesLate;或在预测ShouldGiveLoan时包括更巧妙的NumOfLatePayments。
训练实例泄漏
编辑行间泄漏是由数据行间不适当的信息共享造成的。行间泄漏的类型包括。
过早的特征化;CV/训练/测试分割前过早的特征化造成的泄漏(必须只在训练分割上拟合MinMax/ngrams/等,然后转换测试集)训练/验证/测试之间的重复行(例如,在分割前对数据集进行过度采样以扩大其规模;例如,一张图片的不同旋转/增强;分割前的引导采样;或重复行以增加少数类的采样)非i。
i.d.数据时间泄漏(例如,随机分割时间序列数据集,而不是在测试集中使用TrainTest分割或滚动原点交叉验证的较新数据)组别泄漏--不包括分组分割列(例如,AndrewNg的小组有30k病人的100kX-rays,意味着每个病人约3张图像。
该论文使用了随机分割,而不是确保一个病人的所有图像都在同一个分割中。对于时间相关的数据集,被研究的系统结构会随着时间的推移而变化(即它是非平稳的)。
这可以在训练集和验证集之间引入系统差异。例如,如果一个预测股票价值的模型是在某个五年期的数据上训练出来的,那么将随后的五年期视为从同一群体中抽取的数据是不现实的。再比如,假设开发了一个模型来预测个人在未来一年内被诊断出患有某种疾病的风险。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175738/