实例选择
编辑实例选择(或数据集缩减,或数据集浓缩)是一个重要的数据预处理步骤,可以应用于许多机器学习(或数据挖掘)任务。实例选择的方法可以用于将原始数据集减少到一个可管理的容量,从而减少执行学习过程所需的计算资源。在应用学习算法之前,实例选择的算法也可以用于去除噪声实例。这个步骤可以提高分类问题的准确性。实例选择算法应该确定全部可用数据的一个子集,以实现数据挖掘(或机器学习)应用的最初目的,就像使用了全部数据一样。考虑到这一点,IS的最佳结果将是能够完成相同任务的最小数据子集,与使用全部可用数据执行任务时的性能相比,没有任何性能损失。因此,每个实例选择策略都应该处理好数据集的减少率和分类质量之间的权衡。
实例选择算法
编辑文献为实例选择提供了几种不同的算法。它们可以根据几个不同的标准相互区分。考虑到这一点,实例选择算法可以根据它们选择的实例分为两大类:保留类的边界的实例的算法和保留类的内部实例的算法。在选择边界上的实例的算法类别中,可以举出DROP3、ICF和LSBo。另一方面,在选择内部实例的算法类别中,有可能提到ENN和LSSm。一般来说,像ENN和LSSm这样的算法是用来从数据集中去除有害(嘈杂)的实例。它们并不像选择边界实例的算法那样减少数据,而是删除边界上对数据挖掘任务有负面影响的实例。它们可以被其他实例选择算法使用,作为一个过滤步骤。例如,ENN算法被DROP3作为xxx步使用,LSSm算法被LSBo使用。还有另一组算法采用不同的选择标准。例如,LDIS、CDIS和XLDIS算法在一个给定的任意邻域中选择最密集的实例。
选择的实例可以包括边界和内部实例。LDIS和CDIS算法非常简单,选择的子集对原始数据集非常有代表性。此外,由于它们分别搜索每一类中具有代表性的实例,它们比其他算法,如DROP3和ICF更快(就时间复杂度和有效运行时间而言)。除此之外,还有第三类算法,它们不选择数据集的实际实例,而是选择原型(可以是合成实例)。在这个类别中,有可能包括PSSA、PSDSP和PSSP。这三种算法采用空间分割(超矩形)的概念来识别类似的实例,并为每一组类似的实例提取原型。一般来说,这些方法也可以被修改,用于选择数据集的实际实例。ISDSP算法采用了类似的方法来选择实际的实例(而不是原型)。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175697/