字母频率
编辑字母频率(字素频率)是一个统计变量,表示某个字母在文本或文本集合(语料库)中出现的频率。 它可以指定为xxx数字或相对于文本中的字母总数。 字母的频率分布取决于语言。 虽然之前的假设认为 Zipf 定律总体上预测了字母频率的统计分布,但定量语言学表明必须考虑许多其他概率分布。 最迟从 19 世纪初开始,对文本或文本语料库中字母或声音频率的计数就可以验证了。 出于某些目的,一个字母出现在单词开头或结尾的频率也很有趣。
申请
编辑字母频率用于密码分析中替换方法的解密以及数据压缩和编码。 使用凯撒密码等简单的加密方法,仅通过频率分析就可以解密密文。 确定密文中各个字符的频率,然后将其与假定语言的明文中字符的频率进行比较。 现在密文的字母被相同频率的普通字母代替。 密文中最常见的字母对应明文字母,例如,这种方法显然特别适合解密较长的文本,因为找到的字母频率与预期频率的统计偏差较小。
对于打字课,重要的是教师要充分了解一种语言的母语频率,并相应地调整课程内容。 必须对 E 或 I 等频繁出现的字母进行充分训练,以实现尽可能多的击键次数和良好的书写安全性。 字母频率在创建符合人体工程学的键盘布局中也起着重要作用。
继续
编辑字母频率的延续是字母对和三元组的频率和词频以及代表系统声音单位的书写单位(音素的字素)。 如果一个人处理的是口头语言而不是书面语言,那么还可以对声音或音素的频率进行调查。
字母频率
编辑首字母
首字母的频率表示一个字母作为单词的xxx个字母出现的频率。 它相对强烈地取决于文本的类型。 对于连续文本,五个最常见的首字母是:
字典的不同分布结果。 字母 D、E、I 和 W 在单词开头出现的频率远低于在连续文本中出现的频率,S 是迄今为止最常见的。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/335678/