数据分析

编辑
本词条由“匿名用户” 建档。

数据分析是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息、提供结论和支持决策。数据分析具有多个方面和方法,包含各种名称下的多种技术,并用于不同的商业、科学和社会科学领域。在当今的商业世界中,数据分析发挥着让决策更科学、帮助企业更有效运营的作用。 数据挖掘是一种特殊的数据分析技术,侧重于预测性而非纯粹描述性目的的统计建模和知识发现,而商业智能涵盖严重依赖聚合的数据分析,主要侧重于业务信息...

数据分析

编辑

数据分析是一个检查、清理、转换和建模数据的过程,目的发现有用的信息、提供结论和支持决策。 数据分析具有多个方面和方法,包含各种名称下的多种技术,并用于不同的商业、科学和社会科学领域。 在当今的商业世界中,数据分析发挥着让决策更科学、帮助企业更有效运营的作用。

数据挖掘是一种特殊的数据分析技术,侧重于预测性而非纯粹描述性目的的统计建模和知识发现,而商业智能涵盖严重依赖聚合的数据分析,主要侧重于业务信息。 在统计应用中,数据分析可分为描述性统计、探索性数据分析(EDA)和验证性数据分析(CDA)。 EDA 侧重于发现数据中的新特征,而 CDA 侧重于确认或证伪现有假设。 预测分析侧重于应用统计模型进行预测预测或分类,而文本分析应用统计、语言结构技术从文本源(一种非结构化数据)中提取和分类信息。 以上都是各种数据分析。

数据集成是数据分析的先导,而数据分析又与数据可视化、数据传播息息相关。

数据分析过程

编辑

分析,是指将一个整体分成单独的部分以供单独检查。 数据分析,是获取原始数据,然后将其转换为对用户决策有用的信息的过程。 收集和分析数据以回答问题、检验假设或反驳理论。

统计学家 John Tukey 在 1961 年将数据分析定义为:

分析数据的程序、解释此类程序结果的技术、计划收集数据以使其分析更容易、更精确或更准确的方法,以及适用于分析数据的(数学)统计的所有机制和结果。

有几个阶段可以区分,如下所述。 这些阶段是迭代的,因为来自后期阶段的反馈可能会导致早期阶段的额外工作。 用于数据挖掘的 CRISP 框架具有类似的步骤。

数据要求

数据作为分析的输入是必要的,这是根据指导分析的人员(或将使用分析成品的客户)的要求指定的。 将收集数据的实体的一般类型称为实验单位(例如,一个人或一群人)。 可以指定和获取关于人口的特定变量(例如,年龄和收入)。 数据可以是数字的或分类的(即数字的文本标签)。

数据收集

数据是从各种来源收集的。 这些要求可能由分析师传达给数据保管人; 例如,组织内的信息技术人员。 数据也可能从环境中的传感器收集,包括交通摄像头、卫星、记录设备等。也可能通过访谈、从在线资源下载或阅读文档获得。

数据处理

最初获得的数据必须经过处理或组织以供分析。 例如,这些可能涉及将数据放入表格格式(称为结构化数据)的行和列中以供进一步分析,通常是通过使用电子表格或统计软件

数据清理

处理和组织后,数据可能不完整、包含重复项或包含错误。 数据清理的需要将源于数据输入和存储方式的问题。 数据清洗就是防止和纠正这些错误的过程。

数据分析

常见任务包括记录匹配、识别数据的不准确性、现有数据的整体质量、重复数据删除和列分割。 此类数据问题也可以通过各种分析技术来识别。 例如; 对于财务信息,可以将特定变量的总数与被认为可靠的单独发布的数字进行比较。 也可能会审查高于或低于预定阈值的异常数量。 有几种类型的数据清理,这取决于集合中的数据类型; 这可能是电话号码、电子邮件地址、雇主或其他值。 用于离群值检测的定量数据方法可用于去除似乎输入错误的可能性更高的数据。 文本数据拼写检查器可用于减少打错字的数量。 然而,很难判断这些词本身是否正确。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/249423/

(9)
词条目录
  1. 数据分析
  2. 数据分析过程
  3. 数据要求
  4. 数据收集
  5. 数据处理
  6. 数据清理

轻触这里

关闭目录

目录