懒惰学习_全球百科

1 简介

2 懒惰学习的优点

3 懒惰学习的缺点

简介

编辑

在机器学习中，懒惰学习是一种学习方法，在这种方法中，训练数据的归纳在理论上被推迟到对系统的查询，与急切学习相反，在急切学习中，系统试图在接受查询之前对训练数据进行归纳。

采用懒惰学习的主要动机，如在线推荐系统使用的K-近邻算法，是因为数据集会随着新条目不断更新。

由于持续的更新，训练数据会在相对较短的时间内被淘汰，特别是在书籍和电影等领域，新的畅销书或热门电影/音乐不断出版/发行。因此，我们不能真正谈论训练阶段的问题。懒惰分类器对于大型的、持续变化的、属性很少的、经常被查询的数据集是最有用的。

具体来说，即使存在大量的属性--例如，书籍有出版年份、作者、出版商、标题、版本、ISBN、售价等等。-推荐查询所依赖的属性要少得多--例如，购买或观看的共同出现的数据，以及用户对所购买/观看的物品的评分。

懒惰学习的优点

编辑

采用懒惰学习方法的主要优点是，目标函数将被局部近似，例如在k-nearestneighbor算法中。由于目标函数对系统的每次查询都是局部近似的，因此懒惰学习系统可以同时解决多个问题，并成功地处理问题域的变化。

同时，它们可以重用线性回归建模（特别是PRESS统计）和控制方面的大量理论和应用成果。据说，如果使用单一训练集的预测只针对少数对象进行开发，那么这个系统的优势就会实现。

这可以在k-NN技术的案例中得到证明，该技术是基于实例的，功能只在本地估计。

懒惰学习的缺点

编辑

懒惰学习在理论上的缺点包括。存储整个训练数据集需要很大的空间。在实践中，这不是一个问题，因为硬件的进步和需要存储的属性（如共同出现频率）的数量相对较少。特别是嘈杂的训练数据会不必要地增加案例库，因为在训练阶段没有进行抽象化。

在实践中，如前所述，懒惰学习适用于这样的情况：由于数据的变化，事先进行的任何学习很快就会过时。另外，对于懒惰学习是最优的问题来说，嘈杂的数据并没有真正出现--买书的人要么买了另一本书，要么没有。

懒惰学习方法通常评估起来比较慢。在实践中，对于具有高并发负载的非常大的数据库来说，查询不会被推迟到实际查询时间，而是定期提前重新计算--例如，每晚，以预期未来的查询，并存储答案。这样，当下一次对数据库中的现有条目提出新的查询时，答案只需快速查找，而不是必须在飞行中计算，这几乎肯定会使高并发的多用户系统陷入困境。

较大的训练数据也会带来成本的增加。尤其是固定的计算成本，一个处理器只能处理有限的训练数据点。有标准的技术来提高重新计算的效率，因此除非影响这个答案的数据发生了变化（例如，新的项目，新的购买，新的观点），否则就不会重新计算一个特定的答案。换句话说，存储的答案是渐进式更新的。

懒惰学习

以预先计算其大型数据集中不同项目之间的相似性：生物序列、三维蛋白质结构、发表的文章摘要等。由于查找相似性的查询非常频繁，NCBI使用高度并行的硬件来进行夜间重新计算。

重新计算只针对数据集中的新条目和现有条目：两个现有条目之间的相似度不需要重新计算。

懒惰学习方法的例子K-最近的邻居，这是基于实例的学习的一个特例。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/175735/