特征缩放

编辑
本词条由“匿名用户” 建档。
特征缩放是一种用于将独立变量或数据特征的范围正常化的方法。在数据处理中,它也被称为数据归一化,一般在数据预处理步骤中进行。 由于原始数据的取值范围变化很大,在一些机器学习算法中,如果不进行归一化,目标函数将无法正常工作。例如,许多分类器通过欧氏距离来计算两点之间的距离。如果其中一个特征的数值范围很广,那么距离将由这个特定的特征来支配。因此,所有特征的范围应该被归一化,以便每个特征对最终距...

特征缩放

编辑

特征缩放是一种用于将独立变量或数据特征的范围正常化的方法。在数据处理中,它也被称为数据归一化,一般在数据预处理步骤中进行。

特征缩放的动机

编辑

由于原始数据的取值范围变化很大,在一些机器学习算法中,如果不进行归一化,目标函数将无法正常工作。例如,许多分类器通过欧氏距离来计算两点之间的距离。如果其中一个特征的数值范围很广,那么距离将由这个特定的特征来支配。因此,所有特征的范围应该被归一化,以便每个特征对最终距离的贡献大致成比例。应用特征缩放的另一个原因是,有特征缩放的梯度下降比没有特征缩放的梯度下降收敛得更快。如果正则化被用作损失函数的一部分(以便对系数进行适当的惩罚),应用特征缩放也很重要。

特征缩放的方法

编辑

重新缩放(最小-xxx归一化)也被称为最小-xxx缩放或最小-xxx归一化,重新缩放是最简单的方法,包括重新缩放特征的范围,使其在[0,1]或[-1,1]中缩放。选择目标范围取决于数据的性质。对[0,1]的最小-xxx的一般公式给出如下。是归一化的值。例如,假设我们有学生的体重数据,而学生的体重横跨[160磅,200磅]。为了重定这个数据的尺度,我们首先从每个学生的体重中减去160,然后将结果除以40(最大和最小体重的差值)。要在一组任意的数值[a,b]之间重定比例,公式变成。是该特征向量的平均值。平均值归一化还有另一种形式,即除以标准差,这也被称为标准化。

数据归一化

标准化(Z-scoreNormalization)在机器学习中,我们可以处理各种类型的数据,例如音频信号和图像数据的像素值,而且这些数据可以包括多个维度。特征标准化使数据中每个特征的值具有零均值(当减去分子中的均值时)和单位方差。这种方法被广泛用于许多机器学习算法(如支持向量机、逻辑回归和人工神经网络)的标准化。一般的计算方法是确定每个特征的分布平均值和标准偏差。接下来我们从每个特征中减去平均值。然后,我们用每个特征的值(平均值已经被减去)除以其标准差。

缩放为单位长度

编辑

另一种在机器学习中广泛使用的方法是缩放特征向量的各个组成部分,使整个向量的长度为1。这通常意味着将每个分量除以该向量的欧氏长度。在某些应用中(例如直方图特征),使用特征向量的L1准则(即Taxicab几何)可能更实用。如果在接下来的学习步骤中,标量指标被用作距离测量,这一点尤其重要。注意,这只适用于

特征缩放的应用

编辑

在随机梯度下降中,特征缩放有时可以提高算法的收敛速度。在支持向量机中,它可以减少寻找支持向量的时间。请注意,特征缩放会改变SVM的结果。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175640/

(1)
词条目录
  1. 特征缩放
  2. 特征缩放的动机
  3. 特征缩放的方法
  4. 缩放为单位长度
  5. 特征缩放的应用

轻触这里

关闭目录

目录