简介
编辑在机器学习中,懒惰学习是一种学习方法,在这种方法中,训练数据的归纳在理论上被推迟到对系统的查询,与急切学习相反,在急切学习中,系统试图在接受查询之前对训练数据进行归纳。
采用懒惰学习的主要动机,如在线推荐系统使用的K-近邻算法,是因为数据集会随着新条目不断更新。
由于持续的更新,训练数据会在相对较短的时间内被淘汰,特别是在书籍和电影等领域,新的畅销书或热门电影/音乐不断出版/发行。因此,我们不能真正谈论训练阶段的问题。懒惰分类器对于大型的、持续变化的、属性很少的、经常被查询的数据集是最有用的。
具体来说,即使存在大量的属性--例如,书籍有出版年份、作者、出版商、标题、版本、ISBN、售价等等。-推荐查询所依赖的属性要少得多--例如,购买或观看的共同出现的数据,以及用户对所购买/观看的物品的评分。
懒惰学习的优点
编辑采用懒惰学习方法的主要优点是,目标函数将被局部近似,例如在k-nearestneighbor算法中。由于目标函数对系统的每次查询都是局部近似的,因此懒惰学习系统可以同时解决多个问题,并成功地处理问题域的变化。
同时,它们可以重用线性回归建模(特别是PRESS统计)和控制方面的大量理论和应用成果。据说,如果使用单一训练集的预测只针对少数对象进行开发,那么这个系统的优势就会实现。
这可以在k-NN技术的案例中得到证明,该技术是基于实例的,功能只在本地估计。
懒惰学习的缺点
编辑懒惰学习在理论上的缺点包括。存储整个训练数据集需要很大的空间。在实践中,这不是一个问题,因为硬件的进步和需要存储的属性(如共同出现频率)的数量相对较少。特别是嘈杂的训练数据会不必要地增加案例库,因为在训练阶段没有进行抽象化。
在实践中,如前所述,懒惰学习适用于这样的情况:由于数据的变化,事先进行的任何学习很快就会过时。另外,对于懒惰学习是最优的问题来说,嘈杂的数据并没有真正出现--买书的人要么买了另一本书,要么没有。
懒惰学习方法通常评估起来比较慢。在实践中,对于具有高并发负载的非常大的数据库来说,查询不会被推迟到实际查询时间,而是定期提前重新计算--例如,每晚,以预期未来的查询,并存储答案。这样,当下一次对数据库中的现有条目提出新的查询时,答案只需快速查找,而不是必须在飞行中计算,这几乎肯定会使高并发的多用户系统陷入困境。
较大的训练数据也会带来成本的增加。尤其是固定的计算成本,一个处理器只能处理有限的训练数据点。有标准的技术来提高重新计算的效率,因此除非影响这个答案的数据发生了变化(例如,新的项目,新的购买,新的观点),否则就不会重新计算一个特定的答案。换句话说,存储的答案是渐进式更新的。
以预先计算其大型数据集中不同项目之间的相似性:生物序列、三维蛋白质结构、发表的文章摘要等。由于查找相似性的查询非常频繁,NCBI使用高度并行的硬件来进行夜间重新计算。
重新计算只针对数据集中的新条目和现有条目:两个现有条目之间的相似度不需要重新计算。
懒惰学习方法的例子K-最近的邻居,这是基于实例的学习的一个特例。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175735/