创建词条

创建词条

登录/注册

赞 (6) | 阅读 (34)

文件分类

编辑

本词条由“匿名用户” 建档。

文件分类或文件分类是图书馆科学、信息科学和计算机科学中的一个问题。其任务是将一个文件分配到一个或多个类别或范畴。这可以通过人工（或智力）或算法来完成。文件的智力分类大多是图书馆学的范畴，而文件的算法分类则主要是在信息科学和计算机科学中。然而，这些问题是重叠的，因此存在着跨学科的文献分类研究。需要分类的文件可能是文本、图像、音乐等。每种文件都有其特殊的分类问题。当没有特别说明时，...

目录

1 简介

2 基于内容的分类法与基于请求的分类法

3 分类与索引

简介

文件分类或文件分类是图书馆科学、信息科学和计算机科学中的一个问题。其任务是将一个文件分配到一个或多个类别或范畴。这可以通过人工（或智力）或算法来完成。

文件的智力分类大多是图书馆学的范畴，而文件的算法分类则主要是在信息科学和计算机科学中。然而，这些问题是重叠的，因此存在着跨学科的文献分类研究。

需要分类的文件可能是文本、图像、音乐等。每种文件都有其特殊的分类问题。当没有特别说明时，文本分类是隐含的。文件可以根据其主题或其他属性（如文件类型、作者、印刷年份等）来分类。

在本文的其余部分，我们只考虑主题分类。文件的主题分类有两种主要的理念：基于内容的方法和基于请求的方法。

基于内容的分类法与基于请求的分类法

基于内容的分类法是指对文件中特定主题所赋予的权重决定了该文件被分配到的类别。例如，在图书馆中，一个常见的分类规则是，一本书的内容中至少有20%是关于该书被分配到的类别的。

在自动分类中，它可以是一个文件中出现的单词的数量。面向请求的分类（或索引）是指用户的预期请求影响着文档的分类方式。

面向请求的分类可能是针对特定受众或用户群的分类。例如，一个图书馆或女性主义研究的数据库与一个历史图书馆相比，可能会对文件进行不同的分类/索引。然而，把面向请求的分类理解为基于政策的分类可能更好。

这种分类是根据一些理想进行的，反映了图书馆或数据库进行分类的目的。

这样一来，它就不一定是一种基于用户研究的分类或索引了。只有当关于使用或用户的经验数据被应用时，面向请求的分类才应该被看作是一种基于用户的方法。

分类与索引

有时，人们会在将文件分配给类（分类）与将主题分配给文件（主题索引）之间做出区分，但正如FrederickWilfridLancaster所认为的，这种区分是没有结果的。他写道，"这些术语上的区别是非常没有意义的，只会造成混乱"。这种区别纯属表面现象的观点也得到了支持，因为分类系统可以转化为术语库，反之亦然。

因此，给文档贴标签的行为（比如说通过将受控词汇中的一个术语分配给文档）同时也是将该文档分配给由该术语索引的文档类别（所有被索引或分类为X的文档都属于同一类别的文档）。

分类法

换句话说，给一个文件贴上标签就等于把它分配到该标签下所索引的文件类别中。

自动文档分类任务可以分为三种：

有监督的文档分类，其中一些外部机制（如人类反馈）为文档提供正确的分类信息；

无监督的文档分类（也称为文档聚类），其中分类必须完全不参考外部信息；

以及半监督的文档分类，其中部分文档由外部机制来标记。目前有几种不同许可模式的软件产品。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/175582/

文件夹

文件夹文件夹是一种办公用品，由一张纸、塑料或类似材料折叠（通常对折）使两个角接触。文件或类似的薄物品可以存放在拱门的这两个翼之间。文件夹的描述最简单的类型是文件夹。它由一张约 46 × 31 厘米的硬纸板组成，以横向形式在中间折叠，因此折叠后最大约 23 × 31 厘米。这将创建一个文件夹，...

特征散列

简介在机器学习中，特征散列也被称为散列技巧（类比于内核技巧），是一种快速且节省空间的特征矢量化方式，即把任意特征变成矢量或矩阵的索引。它的工作原理是对特征应用哈希函数，并直接使用其哈希值作为索引，而不是在关联数组中查找索引。这个技巧通常归功于Weinberger等人（2009），但是JohnM...

钱柜ktv

企业简介 1985年以带租赁为其创业初始;随着与消费趋势的冲击转变，且在「不断迎合顾客需求」的经营之下，以稳健殷实的脚步迈入MTV视听领域，四年后，更正式将卡拉OK与MTV重新结合，赋予「PARTYWORLD」一个崭新的面貌，同时，并以企业化的经营手法与长期投资的观点，于1989年3月正式成立「钱柜...

同花顺

　　简介同花顺同花顺股票软件是市场上行情交易最快、数据最全、性能最优、最受股民欢迎的免费股票软件。同花顺股票软件是一个提供行情显示、行情分析和行情交易的股票软件，它分为免费PC产品，付费PC产品，电脑平板产品，手机产品等适用性强的多个版本。同花顺股票软件注重各大证券机构、广大股民的需求和使用习惯，...

查看更多

赞 (6)

全球百科,是VIBAIKE微全球百科的简称,成立于2015年,是全球首个专门针对企业、机构、个人服务的付费商业百科平台,全球百科提供更系统的企业百科词条创建、人物百科词条创建、机构微百科创建等百科...

词条目录

简介
基于内容的分类法与基于请求的分类法
分类与索引

轻触这里

关闭目录

目录