困惑度_全球百科

1 困惑度

2 概率分布的困惑度

3 概率模型的困惑度

4 每个词的困惑度

困惑度

编辑

在信息论中，困惑度是概率分布或概率模型预测样本的好坏程度的度量。它可用于比较概率模型。低困惑度表示概率分布善于预测样本。

概率分布的困惑度

编辑

其中 H(p) 是分布的熵（以位为单位），x 是事件的范围。（基数不必为 2：困惑度与基数无关，前提是熵和求幂使用相同的基数。）此度量在某些领域也称为（1 阶真）多样性。

随机变量 X 的困惑度可以定义为其可能值 x 的分布的困惑度。

在 p 模拟一个公平的 k 面骰子（k 个离散事件的均匀分布）的特殊情况下，它的困惑度是 k。一个具有困惑度 k 的随机变量与一个公平的 k 面骰子具有相同的不确定性，并且一个人被称为对随机变量的值有 k 种困惑。（除非它是一个公平的 k 面骰子，否则可能会有超过 k 个值，但总体不确定性不会更大，因为其中一些值的概率将大于 1/k，从而在求和时降低总体值。）

困惑度有时被用来衡量预测问题的难易程度。这并不总是准确的。如果您有两个选择，其中一个的概率为 0.9，那么使用最优策略，您猜对的几率为 90%。

困惑度是熵的幂，这是一个更明确的量。熵是对随机变量结果进行编码所需的预期或平均位数的度量，使用理论上的最佳可变长度代码，例如，它可以等效地视为从学习随机变量的结果中获得的预期信息增益。

概率模型的困惑度

编辑

可以基于从 p 中提取的训练样本提出未知概率分布 p 的模型。给定一个提议的概率模型 q，人们可以通过询问它对同样从 p 中提取的单独测试样本 x1、x2、...、xN 的预测能力来评估 q。

其中 b {\displaystyle b} 通常为 2。未知分布 p 的更好模型 q 倾向于将更高的概率 q(xi) 分配给测试事件。因此，他们的困惑度较低：他们对测试样本的惊讶程度较低。

如果使用基于 q 的最优代码，则上面的指数可以被视为表示测试事件 xi 所需的平均位数。低困惑模型在压缩测试样本方面做得更好，平均每个测试元素需要很少的比特，因为 q(xi) 往往很高。

每个词的困惑度

编辑

在自然语言处理中，困惑度是评估语言模型的一种方式。语言模型是整个句子或文本的概率分布。

使用概率模型的困惑度定义，人们可能会发现，例如，测试样本中的平均句子 xi 可以用 190 位编码（即，测试句子的平均对数概率为 -190）。

这会给每个句子带来 2190 的巨大模型困惑。然而，更常见的是对句子长度进行归一化并仅考虑每个单词的位数。因此，如果测试样本的句子总共包含 1,000 个单词，并且可以使用每个单词总共 7.95 位进行编码，则可以报告每个单词 27.95 = 247 的模型困惑度。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/217561/

困惑度

困惑度

概率分布的困惑度

概率模型的困惑度

每个词的困惑度

释义（计算语言学）