颗粒计算
编辑颗粒计算(GrC)是一种新兴的信息处理计算范式,涉及被称为信息颗粒的复杂信息实体的处理,这些实体在数据抽象和从信息或数据推导知识的过程中出现。一般来说,信息颗粒是一些实体的集合,这些实体通常起源于数字层面,由于它们的相似性、功能或物理上的相邻性、不可分性、一致性等而被安排在一起。目前,颗粒计算更像是一种理论观点,而不是一套连贯的方法或原则。作为一种理论观点,它鼓励一种处理数据的方法,承认并利用存在于不同分辨率或尺度水平的数据中的知识。在这个意义上,它包括了所有在提取和表示知识或信息的分辨率上提供灵活性和适应性的方法。
颗粒化的类型
编辑如上所述,颗粒化计算不是一种算法或过程;没有一种特定的方法被称为颗粒化计算。它是一种观察数据的方法,它认识到数据中不同的和有趣的规律性是如何出现在不同的颗粒度水平上的,就像不同的特征在或大或小的分辨率的卫星图像中变得很突出。例如,在低分辨率的卫星图像上,人们可能会注意到代表气旋或其他大规模天气现象的有趣的云层模式,而在高分辨率的图像中,人们错过了这些大规模的大气现象,而是注意到较小规模的现象,例如曼哈顿街道的有趣模式。一般来说,所有的数据都是这样的。在不同的分辨率或颗粒度下,会出现不同的特征和关系。颗粒计算的目的是试图利用这一事实来设计更有效的机器学习和推理系统。在数据挖掘和机器学习中经常遇到的颗粒度有几种类型,我们在下面对它们进行回顾。值颗粒化(离散化/量化)颗粒化的一种类型是变量的量化。在数据挖掘或机器学习应用中,为了提取有意义的规律性,需要降低变量的分辨率,这是非常普遍的现象。这方面的一个例子是一个变量,如室外温度,一般来说,将外界温度量化为较小数量的间隔是有利的。
颗粒计算的动机
编辑以这种方式对变量进行量化有几个相互关联的原因。基于先前的领域知识,人们并不期望温度的微小变化(例如,80-80.7°F(26.7-27.1°C)之间的差异)会对驱动健康俱乐部申请数量的行为产生影响。由于这个原因,我们的学习算法在这个分辨率水平上可能检测到的任何规律性都必须是虚假的,是过度拟合的一个伪装。通过将温度变量粗化为我们预计(基于先前的领域知识)可能影响健身俱乐部申请数量的区间,我们消除了检测这些虚假模式的可能性。因此,在这种情况下,降低分辨率是一种控制过度拟合的方法。
通过减少温度变量中的区间数(即增加其粒度),我们增加了由每个区间名称索引的样本数据量。因此,通过粗化变量,我们增加样本量,实现更好的统计估计。在这个意义上,增加颗粒度为所谓的维度诅咒提供了解药,维度诅咒与统计能力随着维数或变量cardinality的增加而呈指数级下降有关。与先前的领域知识无关,通常的情况是,有意义的规律性(即可以通过给定的学习方法、表示语言等检测出来)可能在一个分辨率水平上存在,而在另一个水平上不存在。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/163188/