二元分类

编辑
本词条由“匿名用户” 建档。

二元分类是在分类规则的基础上将一个集合的元素分为两组(各称为类)的任务。典型的二元分类问题包括。医学检测,确定病人是否患有某种疾病;工业中的质量控制,决定是否符合规范;在信息检索中,决定一个页面是否应该出现在搜索的结果集中。二元分类是应用于实际情况的二分法。在许多实际的二元分类问题中,两组不是对称的,与其说是整体的准确性,不如说是不同类型错误的相对比例是人们所关心的。例如,在医学检测中,在不存在疾...

二元分类

编辑

二元分类是在分类规则的基础上将一个集合的元素分为两组(各称为类)的任务。典型的二元分类问题包括。医学检测,确定病人是否患有某种疾病;工业中的质量控制,决定是否符合规范;在信息检索中,决定一个页面是否应该出现在搜索的结果集中。二元分类是应用于实际情况的二分法。在许多实际的二元分类问题中,两组不是对称的,与其说是整体的准确性,不如说是不同类型错误的相对比例是人们所关心的。例如,在医学检测中,在不存在疾病时检测出疾病(假阳性)与在存在疾病时未检测出疾病(假阴性)被认为是不同的。

统计学二元分类

编辑

统计学分类是机器学习中研究的一个问题。它是监督学习的一种类型,是机器学习的一种方法,其中的类别是预先定义的,并用于将新的概率观测值归入所述类别。当只有两个类别时,这个问题被称为统计二元分类。一些常用于二元分类的方法是。

决策树

编辑

随机森林贝叶斯网络支持向量神经网络逻辑回归普罗比特模型遗传编程多表达式编程线性遗传编程每个分类器只在一个选定的领域中是xxx的,基于观察的数量、特征向量的维度数据中的噪声和许多其他因素。例如,对于三维点云来说,随机森林比SVM分类器表现更好。

二元分类器的评估

编辑

有许多指标可以用来衡量分类器或预测器的性能;由于目标不同,不同领域对特定的指标有不同的偏好。在医学上,灵敏度和特异性经常被使用,而在信息检索中,精确度和召回率是首选。一个重要的区别是独立于每个类别在人群中出现的频率(流行率)的度量和依赖于流行率的度量--这两种类型都很有用,但它们有非常不同的属性。给定一个特定数据集的分类,实际数据类别和指定类别有四个基本组合:真阳性TP(正确的阳性分配)、真阴性TN(正确的阴性分配)、假阳性FP(错误的阳性分配)和假阴性FN(错误的阴性分配)。这些可以排列成一个2×2的或然率表,列对应于实际值--条件阳性或条件阴性,行对应于分类值--测试结果阳性或测试结果阴性。

八个基本比率

编辑

从这个表中可以计算出八个基本比率,它们有四个互补对(每对之和为1)。这些数字是由四个数字中的每一个除以其行或列的总和而得到的,产生八个数字,可以用真阳性行比或假阴性列比的形式来泛指。因此,有两对列比和两对行比,人们可以从每对比率中选择一个比率,用四个数字来概括这些比率--其他四个数字是补数。行比是。真阳性率(TPR)=(TP/(TP+FN)),又称敏感性或召回率。这些是有条件的人群中测试正确的比例。带补数的假阴性率(FNR)=(FN/(TP+FN))真阴性率(TNR)=(TN/(TN+FP),又称特异性(SPC),带补数的假阳性率(FPR)=(FP/(TN+FP)),也叫独立于流行率的假阳性率。列比是。阳性预测值(PPV,又称精确度)(TP/(TP+FP))。

多元分类

这些是具有给定测试结果的人群中测试正确的比例。与之相辅相成的是错误发现率(FDR)(FP/(TP+FP))阴性预测值(NPV)(TN/(TN+FN))与之相辅相成的是错误遗漏率(FOR)(FN/(TN+FN)),也称为依赖流行率。在诊断测试中,使用的主要比率是真列比率-真阳率和真阴率-在这里它们被称为灵敏度和特异度。在信息检索中,主要的比率是真阳性比率(行和列)--阳性预测值和真阳性率--它们被称为精确度和召回率。人们可以取一对互补的比率,产生四个似然比(两个列比的比率,两个行比的比率)。这主要是针对列(条件)比,在诊断测试中产生似然比。以这些比率中的一组比率为例

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175501/

(1)
词条目录
  1. 二元分类
  2. 统计学二元分类
  3. 决策树
  4. 二元分类器的评估
  5. 八个基本比率

轻触这里

关闭目录

目录