特征散列

编辑
本词条由“匿名用户” 建档。

在机器学习中,特征散列也被称为散列技巧(类比于内核技巧),是一种快速且节省空间的特征矢量化方式,即把任意特征变成矢量或矩阵的索引。 它的工作原理是对特征应用哈希函数,并直接使用其哈希值作为索引,而不是在关联数组中查找索引。 这个技巧通常归功于Weinberger等人(2009),但是JohnMoody在1989年发表了关于这个方法的更早的描述。 动机实例在一个典型的文档分类任务中,机器学习算法的输...

简介

编辑

机器学习中,特征散列也被称为散列技巧(类比于内核技巧),是一种快速且节省空间的特征矢量化方式,即把任意特征变成矢量或矩阵的索引

它的工作原理是对特征应用哈希函数,并直接使用其哈希值作为索引,而不是在关联数组中查找索引。

这个技巧通常归功于Weinberger等人(2009),但是JohnMoody在1989年发表了关于这个方法的更早的描述。

特征散列的动机

编辑

动机实例在一个典型的文档分类任务中,机器学习算法的输入(在学习和分类期间)是自由文本。从中构建了一个词包(BOW)表示:单个标记被提取并计数,训练集中的每个不同的标记定义了训练集和测试集中每个文档的特征(独立变量)。然而,机器学习算法通常是以数字向量的形式来定义的。

因此,一组文档的词包被视为一个术语-文档矩阵,其中每一行是一个单一的文档,每一列是一个单一的特征/词;这样一个矩阵中的条目i,j捕获了i号文档中词汇的第j个词的频率(或权重)。

通常,这些向量是非常稀疏的--根据Zipf定律。常见的方法是在学习时或在此之前构建一个训练集词汇的字典表示,并使用它来将单词映射到索引。

哈希表和tries是字典实现的常见候选者。例如,这三个文件约翰喜欢看电影,玛丽也喜欢看电影,约翰也喜欢足球

使用字典,可以将这三个文件转换成转换为术语-文档矩阵标点符号被删除,这在文件分类和聚类中是很常见的)。

散列表

这个过程的问题是,这样的字典占用了大量的存储空间,并且随着训练集的增长,字典的大小也在不断增加。

相反,如果词汇表保持固定,不随训练集的增长而增加,那么对手可能会试图发明新的词汇或不在存储词汇中的错误拼写,以规避机器学习的过滤器

为了应对这一挑战,研究部门试图在他们的垃圾邮件过滤器中使用特征散列。

请注意,散列技巧并不限于文本分类和文档层面的类似任务,而是可以应用于任何涉及大量(也许是无界)特征的问题。

数学动机

编辑

通过这种艺术,你可以思考23个字母的变化...-RobertBurton,TheAnatomyofMelancholy,Part2,Sect.II,Mem.IV.在数学上,一个标记是一个元素。

假设我们只需要处理一个有限的语料库,那么我们可以把语料库中出现的所有标记放到{displaystyleT}中,也就是说,我们可以把语料库中出现的所有标记放到T{displaystyleT}中。{displaystyleT}是有限的,是有限的。

然而,假设我们要处理所有可能的由英文字母组成的单词,那么{displaystyleT}是有限的。是可数的无限的。

大多数神经网络只能对实数向量输入进行操作,所以我们必须构建一个字典函数{T|=mleqn},那么我们就可以使用单次编码将其映射成一个有价值的文件。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175634/

(5)
词条目录
  1. 简介
  2. 特征散列的动机
  3. 数学动机

轻触这里

关闭目录

目录