量化(机器学习)

编辑
本词条由“匿名用户” 建档。

在机器学习和数据挖掘中,量化(又称学习量化,或监督流行估计,或类先验估计)是指使用监督学习来训练模型(量化器),以估计未标记的数据项目样本中感兴趣类的相对频率(也称为流行值)。量化也可以被看作是训练预测器的任务,这些预测器可以估计一个(离散的)概率分布,即产生一个预测分布,该分布接近于项目在相关类别中的未知真实分布。量化与分类不同,因为分类的目标是预测单个数据项的类别标签,而量化的目标是预测一组数...

量化(机器学习)

编辑

机器学习和数据挖掘中,量化(又称学习量化,或监督流行估计,或类先验估计)是指使用监督学习来训练模型(量化器),以估计未标记的数据项目样本中感兴趣类的相对频率(也称为流行值)。量化也可以被看作是训练预测器的任务,这些预测器可以估计一个(离散的)概率分布,即产生一个预测分布,该分布接近于项目在相关类别中的未知真实分布。量化与分类不同,因为分类的目标是预测单个数据项的类别标签,而量化的目标是预测一组数据项的类别流行值。量化也不同于回归,因为在回归中,训练数据项有实值标签,而在量化中,训练数据项有类标签。多项研究工作表明,通过对所有未贴标签的实例进行分类,然后计算归属于每个类别的实例("分类和计数"方法)来进行量化,通常会导致次优的量化精度。这种次优性可以被看作是"瓦普尼克原则"的直接后果,该原则指出。如果你拥有用于解决某些问题的有限信息量,那么请尝试直接解决该问题,而不要作为中间步骤解决一个更普遍的问题。有可能现有的信息足以直接解决问题,但却不足以解决一个更一般的中间问题。在我们的案例中,要直接解决的问题是量化,而更一般的中间问题是分类。由于"分类和计数"方法的次优性,量化已经发展成为一个独立的任务,与分类不同。

量化任务

编辑

根据所使用的类集的特点,量化的主要变体是。二进制量化,对应于只有n=2的情况{displaystylen=2}类,每个数据项正好属于类,并且每个数据项正好属于其中一个。单标签多类量化,对应于有n>2的情况{displaystylen>2}类,并且每个数据项恰好属于其中一个。类,并且每个数据项正好属于其中一个。有序量化,对应于单标签多类情况,在这种情况下,在类的集合上定义了一个总的顺序。大多数已知的量化方法处理二进制情况或单标签多类情况,只有少数方法处理有序的情况。

量化的评价措施

编辑

有几种评价措施可用于评价量化方法的误差。由于量化包括生成一个估计真实概率分布的预测概率分布,这些评价措施是比较两个概率分布的。大多数量化的评价措施属于分歧类。二元量化和单标签多类量化的评价措施有

量化交易

xxx误差

编辑

平方误差

相对对误差的评价措施有归一化匹配距离根归一化秩序感知距离应用量化在社会科学、流行病学、市场研究和生态建模等领域具有特殊的意义,因为这些领域本来就与总体数据有关;但是,量化在这些领域之外的应用中也很有用,比如测量分类器的偏差和执行分类器的公平性,进行词义消歧,分配资源,以及提高分类器的准确性。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175918/

(3)
词条目录
  1. 量化(机器学习)
  2. 量化任务
  3. 量化的评价措施
  4. 绝对误差
  5. 平方误差

轻触这里

关闭目录

目录