困惑度

编辑
本词条由“匿名用户” 建档。
在信息论中,困惑度是概率分布或概率模型预测样本的好坏程度的度量。 它可用于比较概率模型。 低困惑度表示概率分布善于预测样本。 其中 H(p) 是分布的熵(以位为单位),x 是事件的范围。 (基数不必为 2:困惑度与基数无关,前提是熵和求幂使用相同的基数。)此度量在某些领域也称为(1 阶真)多样性。 随机变量 X 的困惑度可以定义为其可能值 x 的分布的困惑度。 在 p 模拟一...

困惑度

编辑

在信息论中,困惑度是概率分布或概率模型预测样本的好坏程度的度量。 它可用于比较概率模型。 低困惑度表示概率分布善于预测样本。

概率分布的困惑度

编辑

其中 H(p) 是分布的熵(以位为单位),x 是事件的范围。 (基数不必为 2:困惑度与基数无关,前提是熵和求幂使用相同的基数。)此度量在某些领域也称为(1 阶真)多样性。

随机变量 X 的困惑度可以定义为其可能值 x 的分布的困惑度。

在 p 模拟一个公平的 k 面骰子(k 个离散事件的均匀分布)的特殊情况下,它的困惑度是 k。 一个具有困惑度 k 的随机变量与一个公平的 k 面骰子具有相同的不确定性,并且一个人被称为对随机变量的值有 k 种困惑。 (除非它是一个公平的 k 面骰子,否则可能会有超过 k 个值,但总体不确定性不会更大,因为其中一些值的概率将大于 1/k,从而在求和时降低总体值。)

困惑度有时被用来衡量预测问题的难易程度。 这并不总是准确的。 如果您有两个选择,其中一个的概率为 0.9,那么使用最优策略,您猜对的几率为 90%。

困惑度是熵的幂,这是一个更明确的量。熵是对随机变量结果进行编码所需的预期或平均位数的度量,使用理论上的最佳可变长度代码, 例如,它可以等效地视为从学习随机变量的结果中获得的预期信息增益。

概率模型的困惑度

编辑

可以基于从 p 中提取的训练样本提出未知概率分布 p 的模型。 给定一个提议的概率模型 q,人们可以通过询问它对同样从 p 中提取的单独测试样本 x1、x2、...、xN 的预测能力来评估 q。

其中 b {\displaystyle b} 通常为 2。未知分布 p 的更好模型 q 倾向于将更高的概率 q(xi) 分配给测试事件。 因此,他们的困惑度较低:他们对测试样本的惊讶程度较低。

如果使用基于 q 的最优代码,则上面的指数可以被视为表示测试事件 xi 所需的平均位数。 低困惑模型在压缩测试样本方面做得更好,平均每个测试元素需要很少的比特,因为 q(xi) 往往很高。

每个词的困惑度

编辑

在自然语言处理中,困惑度是评估语言模型的一种方式。 语言模型是整个句子或文本的概率分布。

使用概率模型的困惑度定义,人们可能会发现,例如,测试样本中的平均句子 xi 可以用 190 位编码(即,测试句子的平均对数概率为 -190)。

困惑度

这会给每个句子带来 2190 的巨大模型困惑。 然而,更常见的是对句子长度进行归一化并仅考虑每个单词的位数。 因此,如果测试样本的句子总共包含 1,000 个单词,并且可以使用每个单词总共 7.95 位进行编码,则可以报告每个单词 27.95 = 247 的模型困惑度。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/217561/

(4)
词条目录
  1. 困惑度
  2. 概率分布的困惑度
  3. 概率模型的困惑度
  4. 每个词的困惑度

轻触这里

关闭目录

目录