简介
编辑在机器学习和模式识别中,特征是一个现象的个别可测量的属性或特征。在模式识别、分类和回归中,选择信息量大的、有区别的和独立的特征是有效算法的一个关键因素。
特征通常是数字性的,但结构性的特征如字符串和图形被用于句法模式识别中。特征的概念与统计技术(如线性回归)中使用的解释变量的概念有关。
特征(机器学习)的分类
编辑一个数字特征可以方便地用一个特征向量来描述。实现二元分类的一种方法是使用线性预测函数(与感知器有关),以特征向量作为输入。
该方法包括计算特征向量和权重向量之间的标量乘积,限定那些结果超过阈值的观测值。从特征向量进行分类的算法包括近邻分类、神经网络和统计技术,如贝叶斯方法。
特征(机器学习)的例子
编辑在字符识别中,特征可能包括沿水平和垂直方向计算黑色像素数量的直方图、内部孔洞的数量、笔画检测和其他许多特征。
在语音识别中,识别音素的特征可以包括噪声比、声音的长度、相对功率、过滤器匹配和其他许多特征。
在垃圾邮件检测算法中,特征可能包括某些电子邮件标题的存在与否、电子邮件的结构、语言、特定术语的频率、文本的语法正确性。
在计算机视觉中,有大量可能的特征,如边缘和物体。
特征(机器学习)的扩展
编辑在模式识别和机器学习中,特征向量是一个代表某些对象的n维数字特征向量。
机器学习中的许多算法都需要对物体进行数字表示,因为这样的表示方式有利于处理和统计分析。当表示图像时,特征值可能对应于图像的像素,而当表示文本时,特征可能是文本术语的出现频率。
特征向量等同于统计程序中使用的解释变量向量,如线性回归。
特征向量通常与使用点乘的权重相结合,以构建一个线性预测函数,用于确定进行预测的分数。与这些向量相关的向量空间通常被称为特征空间。为了降低特征空间的维度,可以采用一些降维技术。
更高层次的特征可以从已有的特征中获得,并添加到特征向量中;例如,对于疾病的研究,"年龄"这个特征很有用,其定义为年龄="死亡年份"减去"出生年份"。这个过程被称为特征构建。
特征构建是将一组构造性操作符应用于一组现有的特征,从而构建出新的特征。这种构造运算符的例子包括检查平等条件{=,≠},算术运算符{+,-,×,/},数组运算符{max(S),min(S),average(S)}以及其他更复杂的运算符,例如count(S,C),计算特征向量S中满足某些条件C的特征数量,或者,例如通过某些接受设备概括的与其他识别类别的距离。
长期以来,特征构造被认为是提高准确性和理解结构的有力工具,特别是在高维问题上。其应用包括对疾病的研究和语音的情感识别。
选择和提取
编辑最初的原始特征集可能是多余的,而且太大,难以管理。
因此,在机器学习和模式识别的许多应用中,一个初步的步骤是选择一个特征子集,或构建一个新的、减少的特征集以促进学习,并提高概括性和可解释性。
提取或选择特征是艺术和科学的结合;开发这样的系统被称为特征工程。
它需要对多种可能性进行试验,并将自动化技术与领域专家的直觉和知识相结合。
将这一过程自动化就是特征学习,机器不仅使用特征进行学习,而且自己学习特征。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175629/