简介

编辑

文件分类或文件分类是图书馆科学、信息科学和计算机科学中的一个问题。其任务是将一个文件分配到一个或多个类别或范畴。这可以通过人工（或智力）或算法来完成。

文件的智力分类大多是图书馆学的范畴，而文件的算法分类则主要是在信息科学和计算机科学中。然而，这些问题是重叠的，因此存在着跨学科的文献分类研究。

需要分类的文件可能是文本、图像、音乐等。每种文件都有其特殊的分类问题。当没有特别说明时，文本分类是隐含的。文件可以根据其主题或其他属性（如文件类型、作者、印刷年份等）来分类。

在本文的其余部分，我们只考虑主题分类。文件的主题分类有两种主要的理念：基于内容的方法和基于请求的方法。

基于内容的分类法与基于请求的分类法

编辑

基于内容的分类法是指对文件中特定主题所赋予的权重决定了该文件被分配到的类别。例如，在图书馆中，一个常见的分类规则是，一本书的内容中至少有20%是关于该书被分配到的类别的。

在自动分类中，它可以是一个文件中出现的单词的数量。面向请求的分类（或索引）是指用户的预期请求影响着文档的分类方式。

面向请求的分类可能是针对特定受众或用户群的分类。例如，一个图书馆或女性主义研究的数据库与一个历史图书馆相比，可能会对文件进行不同的分类/索引。然而，把面向请求的分类理解为基于政策的分类可能更好。

这种分类是根据一些理想进行的，反映了图书馆或数据库进行分类的目的。

这样一来，它就不一定是一种基于用户研究的分类或索引了。只有当关于使用或用户的经验数据被应用时，面向请求的分类才应该被看作是一种基于用户的方法。

分类与索引

编辑

有时，人们会在将文件分配给类（分类）与将主题分配给文件（主题索引）之间做出区分，但正如FrederickWilfridLancaster所认为的，这种区分是没有结果的。他写道，”这些术语上的区别是非常没有意义的，只会造成混乱”。这种区别纯属表面现象的观点也得到了支持，因为分类系统可以转化为术语库，反之亦然。

因此，给文档贴标签的行为（比如说通过将受控词汇中的一个术语分配给文档）同时也是将该文档分配给由该术语索引的文档类别（所有被索引或分类为X的文档都属于同一类别的文档）。

文件分类

换句话说，给一个文件贴上标签就等于把它分配到该标签下所索引的文件类别中。

自动文档分类任务可以分为三种：

有监督的文档分类，其中一些外部机制（如人类反馈）为文档提供正确的分类信息；

无监督的文档分类（也称为文档聚类），其中分类必须完全不参考外部信息；

以及半监督的文档分类，其中部分文档由外部机制来标记。目前有几种不同许可模式的软件产品。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/175582/