归纳概率_全球百科

1 归纳概率

2 归纳概率的历史

3 最小描述/信息长度

4 过度拟合

归纳概率

归纳概率试图在过去事件的基础上给出未来事件的概率。它是归纳推理的基础，并为学习和感知模式提供了数学基础。它是一个关于世界的知识来源。知识的来源有三个：推理、交流和演绎。交流转述了用其他方法发现的信息。扣除法在现有事实的基础上建立新的事实。推理从数据中建立新的事实。其基础是贝叶斯定理。描述世界的信息是用一种语言书写的。例如，可以选择一种简单的命题的数学语言。在这种语言中，句子可以被写成字符串。但在计算机中，有可能将这些句子编码为比特（1和0）的字符串。然后，该语言可以被编码，以便最常用的句子是最短的。这种内部语言隐含地代表了语句的概率。奥卡姆剃刀说，最简单的理论，与数据相一致，最有可能是正确的。最简单的理论被解释为用这种内部语言编写的理论的代表。在这种内部语言中编码最短的理论最有可能是正确的。

归纳概率的历史

编辑

概率和统计学的重点是概率分布和重要性检验。概率是正式的，定义明确，但范围有限。特别是它的应用仅限于那些可以被定义为实验或试验的情况，有一个定义明确的群体。贝叶斯定理是以托马斯-贝叶斯牧师（1701-1761）命名的。贝叶斯推论将概率的应用范围扩大到人口定义不明确的许多情况。但贝叶斯定理总是依赖于先验概率，以产生新的概率。当时并不清楚这些先验概率应该来自哪里。雷-所罗门诺夫开发了算法概率，对什么是随机性以及数据中的模式如何由计算机程序表示作出了解释，这些程序在1964年左右对数据作出了较短的表述。ChrisWallace和D.M.Boulton大约在1968年提出了最小信息长度。后来JormaRissanen大约在1978年发展了最小描述长度。这些方法使信息理论与概率相关，其方式可以与贝叶斯定理的应用相比较，但它给先验概率的作用提供了来源和解释。马库斯-胡特将决策理论与雷-所罗门诺夫和安德烈-科尔莫戈罗夫的工作相结合，给出了智能代理的帕累托最优行为理论，大约在1998年。

最小描述/信息长度

编辑

与数据匹配的最短长度的程序最有可能预测未来的数据。这就是最小消息长度和最小描述长度方法背后的理论。乍一看，贝叶斯定理似乎与最小信息/描述长度原则不同。仔细观察发现，它是一样的。贝叶斯定理是关于条件概率的，它指出如果事件A首先发生，事件B发生的概率。这意味着，如果给出了描述一个事件的所有信息，那么信息的长度可以用来给出该事件的原始概率。因此，如果描述A的发生的信息已经给出，同时描述B的信息也已经给出，那么描述A和B的所有信息都已经给出。

过度拟合

编辑

当模型与随机噪声而不是数据中的模式相匹配时，就会出现过度拟合。例如，以一条曲线拟合一组点的情况为例。如果拟合一个有很多项的多项式，那么它可以更紧密地代表数据。那么拟合效果会更好，描述与拟合曲线的偏差所需的信息也会更小。更小的信息长度意味着更高的概率。然而，描述曲线所需的信息也必须考虑。一个有很多项的曲线的总信息量可能大于一个有较少项的曲线，后者的拟合效果没有那么好，但需要较少的信息来描述多项式。基于程序复杂性的推理所罗门夫的归纳推理理论也是归纳推理。观察到一个比特串x。然后考虑所有生成以x开始的字符串的程序。以归纳推理的形式投出，这些程序是暗示观察到比特串x的理论。这里用来给出归纳推理概率的方法是基于所罗门诺夫的归纳推理理论。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/175692/