模式识别
编辑模式识别是对数据中模式和规律性的自动识别。它在统计数据分析、信号处理、图像分析、信息检索、生物信息学、数据压缩、计算机图形和机器学习中都有应用。模式识别起源于统计学和工程学;一些现代的模式识别方法包括使用机器学习,因为大数据的可用性增加和新的丰富的处理能力。这些活动可以被视为同一领域的两个方面的应用,它们在过去几十年中经历了实质性的发展。模式识别系统通常从标记的训练数据中进行训练。当没有标记的数据时,可以使用其他算法来发现以前未知的模式。KDD和数据挖掘更注重无监督的方法,并与商业用途有更强的联系。模式识别更注重于信号,也考虑到了采集和信号处理。它起源于工程,这个词在计算机视觉方面很流行:一个xxx的计算机视觉会议被命名为计算机视觉和模式识别会议。在机器学习中,模式识别是为给定的输入值分配一个标签。在统计学中,判别分析于1936年被引入,用于同一目的。模式识别的一个例子是分类,它试图将每个输入值分配到一组给定的类别中(例如,确定一个给定的电子邮件是否是垃圾邮件)。模式识别是一个更普遍的问题,也包括其他类型的输出。其他的例子有:回归,为每个输入分配一个实值输出;序列标记,为数值序列的每个成员分配一个类别(例如,语篇标记,为输入句子中的每个词分配一个语篇);以及解析,为输入句子分配一个解析树,描述句子的语法结构。模式识别算法通常旨在为所有可能的输入提供一个合理的答案,并对输入进行最可能的匹配,同时考虑到它们的统计变化。这与模式匹配算法相反,后者在输入中寻找与预先存在的模式完全匹配的内容。模式匹配算法的一个常见例子是正则表达式匹配,它在文本数据中寻找给定的模式,包括在许多文本编辑器和文字处理器的搜索功能中。
模式识别的概述
编辑模式识别的一个现代定义是。模式识别领域关注的是通过使用计算机算法自动发现数据中的规律性,并利用这些规律性来采取行动,如将数据分为不同类别。模式识别一般根据用于生成输出值的学习程序的类型进行分类。监督学习假定已经提供了一组训练数据(训练集),由一组实例组成,这些实例已经被正确地手工标记为正确的输出。然后,一个学习程序生成一个模型,试图满足两个有时相互冲突的目标。在训练数据上尽可能好地执行,并尽可能好地概括到新的数据上(通常,这意味着尽可能简单,根据奥卡姆剃刀的一些技术定义,下面讨论)。另一方面,无监督学习假定训练数据没有被手工标记,并试图在数据中找到固有的模式,然后可以用来确定新数据实例的正确输出值。两者的结合已经被探讨过了,那就是半监督学习,它使用标记的和未标记的数据的组合(通常是一小组标记的数据与大量未标记的数据相结合)。
在无监督学习的情况下,可能根本就没有训练数据。有时,不同的术语被用来描述同一类型输出的相应监督和无监督学习程序。无监督分类的等同物通常被称为聚类,基于对该任务的普遍看法,即不涉及任何训练数据,并根据一些固有的相似性措施(如实例之间的距离,被视为多维向量空间中的向量)将输入数据分组,而不是将每个输入实例分配到一组预先定义的类中。在一些领域,术语是不同的。在群落生态学中,分类这一术语被用来指代通常所说的聚类。产生输出值的输入数据片段正式称为实例。实例在形式上被描述为
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175876/