简介
编辑在机器学习中,特征学习或表征学习是一套技术,允许系统自动发现原始数据中特征检测或分类所需的表征。这取代了人工特征工程,并允许机器既学习特征,又使用它们来执行特定任务。
特征学习的动机是,机器学习任务(如分类)通常需要在数学上和计算上方便处理的输入。然而,现实世界的数据,如图像、视频和传感器数据,并没有让人尝试用算法来定义特定的特征。
另一种方法是通过检查发现这些特征或表征,而不依赖明确的算法。
特征学习可以是有监督的、无监督的或自监督的。在有监督的特征学习中,特征是使用标记的输入数据学习的。标签数据包括输入-标签对,其中输入是给模型的,它必须产生地面真相标签作为正确答案。
这可以利用模型生成特征表示,从而获得高的标签预测精度。例如,有监督的神经网络、多层感知器和(有监督的)字典学习。
在无监督的特征学习中,通过分析数据集中各点之间的关系,用未标记的输入数据学习特征。例子包括字典学习、独立成分分析、矩阵分解和各种形式的聚类。
在自我监督的特征学习中,特征的学习与无监督的学习一样,使用无标签的数据,但是输入-标签对是从每个数据点构建的,这使得通过监督的方法(如梯度下降)学习数据的结构。
经典的例子包括词嵌入和自动编码器。此后,SSL通过使用深度神经网络架构(如CNN和Transformers)被应用于许多模式。
有监督的有监督的特征学习是从标记的数据中学习特征。数据标签允许系统计算一个错误项,即系统未能产生标签的程度,然后可以作为反馈来纠正学习过程(减少/尽量减少错误)。
监督下的字典学习
编辑字典学习从输入数据中开发出一组有代表性的元素(字典),这样每个数据点都可以被表示为有代表性元素的加权和。词典元素和权重可以通过最小化平均表示误差(在输入数据上)来找到,同时对权重进行L1正则化以实现稀疏性(即每个数据点的表示只有几个非零权重)。
监督下的字典学习同时利用了输入数据的基础结构和优化字典元素的标签。例如,这种监督字典学习技术通过共同优化字典元素、代表数据点的权重以及基于输入数据的分类器参数,将字典学习应用于分类问题。
特别是,制定了一个最小化问题,其中目标函数由分类误差、表示误差、每个数据点的表示权重的L1正则化(以实现数据的稀疏表示)和分类器的参数的L2正则化组成。
神经网络
编辑神经网络是一个学习算法系列,使用由多层相互连接的节点组成的网络。它的灵感来自于动物的神经系统,其中节点被视为神经元,边缘被视为突触。
每条边都有一个相关的权重,网络定义了将输入数据从网络的输入层传递到输出层的计算规则。与神经网络相关的网络函数表征了输入层和输出层之间的关系,该关系由权重进行参数化。
有了适当定义的网络函数,各种学习任务可以通过最小化网络函数(权重)的成本函数来完成。
多层神经网络可以用来进行特征学习,因为它们在隐藏层学习其输入的表示,随后在输出层用于分类或回归。这种类型的最流行的网络结构是连体网络。
无监督
编辑无监督的特征学习是指从未标记的数据中学习特征。无监督特征学习的目标通常是发现低维特征,以捕捉高维输入数据中的一些结构。
当特征学习以无监督的方式进行时,它可以实现一种半监督学习,即从无标签数据中学习的特征。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175637/