核密度估计_全球百科

1 核密度估计

2 核密度估计的定义

3 核密度估计的例子

4 带宽选择

核密度估计

在统计学中，核密度估计（KDE）是核平滑在概率密度估计中的应用，即用非参数方法来估计基于核作为权重的随机变量的概率密度函数。KDE回答了一个基本的数据平滑问题，即根据一个有限的数据样本，对群体进行推断。在一些领域，如信号处理和计量经济学，它也被称为Parzen-Rosenblatt窗口法，这是以EmanuelParzen和MurrayRosenblatt的名字命名的，他们通常被认为是独立创造了它的现有形式。核心密度估计的一个著名应用是在使用天真贝叶斯分类器时估计数据的类条件边际密度，这可以提高其预测精度。

核密度估计的定义

编辑

让(x1,x2,...,xn)是独立和相同分布的样本，从某个单变量分布中抽取，在任何给定的点x上有一个未知的密度ƒ，我们对估计这个函数ƒ的形状感兴趣。它的核密度估计器是其中K是内核--一个非负函数--而h>0是一个平滑参数，称为带宽。带下标h的核被称为比例核，定义为Kh(x)=1/hK(x/h)。直观地说，我们希望在数据允许的范围内选择尽可能小的h；然而，在估计器的偏差和它的方差之间总是有一个权衡。下面将更详细地讨论带宽的选择。常用的核函数有：均匀核、三角核、双权核、三权核、Epanechnikov核、正态核和其他。从均方误差的角度来看，Epanechnikov核是最佳的，尽管对于前面列出的核来说，效率的损失很小。由于其方便的数学特性，正态核经常被使用，即K（x）=ϕ（x），其中ϕ是标准的正态密度函数。核密度估计的构造在密度估计之外的领域也有解释。例如，在热力学中，这相当于将热核（热方程的基本解）置于每个数据点位置xi时产生的热量。类似的方法被用来在点云上构建离散的拉普拉斯算子，用于流形学习（如扩散图）。

核密度估计的例子

编辑

核密度估计与直方图密切相关，但可以通过使用合适的核赋予其平滑性或连续性等属性。基于这6个数据点的下图说明了这种关系。对于直方图来说，首先，横轴被划分为涵盖数据范围的子区间或仓。每当一个数据点落在这个区间内，就会有一个高度为1/12的方框放在那里。如果一个以上的数据点落在同一个仓内，这些盒子就会被叠放在彼此的上面。对于核密度估计，方差为2.25的正态核（由红色虚线表示）被放在每个数据点xi上。这些核被加起来，形成核密度估计值（蓝色实心曲线）。核密度估计值的平滑性（与直方图的离散性相比）说明了核密度估计值如何更快地收敛到连续随机变量的真实基本密度。

带宽选择

编辑

核的带宽是一个自由参数，对所得到的估计值有很大影响。为了说明它的影响，我们从标准正态分布中抽取一个模拟随机样本（绘制在横轴上地毯图的蓝色尖峰处）。灰色曲线是真实的密度（均值为0、方差为1的正态密度）。

相比之下，红色曲线是不平滑的，因为它包含了太多因使用带宽h=0.05而产生的虚假数据假象，这太小了。绿色曲线是过度平滑的，因为使用带宽h=2掩盖了大部分的基本结构。带宽为h=0.337的黑色曲线被认为是最佳的平滑曲线，因为它的密度估计值接近于真实密度。在极限情况下，会遇到一个极端情况(无平滑），其中估计是以分析样本的坐标为中心的n个delta函数的总和。在另一个极端的极限中估计值保留了所用内核的形状，以样本的平均值为中心（完全平滑）。用于选择这个参数的最常见的优化标准是预期的L2风险函数，也被称为平均综合平方误差。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/175712/