简介
编辑数据探索是一种类似于初始数据分析的方法,即数据分析师使用可视化探索来了解数据集中的内容和数据的特征,而不是通过传统的数据管理系统。
这些特征可以包括数据的大小或数量、数据的完整性、数据的正确性、数据元素之间的可能关系或数据中的文件/表格。
数据探索通常使用自动和手动活动的组合进行。自动活动可以包括数据剖析或数据可视化或表格报告,以使分析员对数据有一个初步的了解,并对关键特征有一个认识。随后,通常会对数据进行人工钻取或过滤,以确定通过自动操作发现的异常或模式。
数据探索也可能需要手动编写脚本和查询数据(如使用SQL或R等语言)或使用电子表格或类似工具来查看原始数据。
所有这些活动都是为了在分析者的头脑中建立一个心理模型和对数据的理解,并为数据集定义基本的元数据(统计、结构、关系),以便在进一步分析中使用。
一旦对数据有了初步的了解,就可以通过删除数据中不可用的部分(数据清洗)、纠正格式化不良的元素以及定义数据集之间的相关关系来修剪或完善数据。
这个过程也被称为确定数据质量。数据探索也可以指对数据的特别查询或可视化,以确定可能隐藏在数据中的潜在关系或见解,而不需要事先制定假设。传统上,这一直是统计学家关注的一个关键领域,约翰-图基是该领域的一个重要传道者。
今天,数据探索更加广泛,是数据分析师和数据科学家的重点;后者是企业和大型组织中相对较新的角色。
交互式数据探索
编辑这个领域的数据探索已经成为机器学习领域的一个兴趣领域。
这是一个相对较新的领域,仍在不断发展。就其最基本的层面而言,机器学习算法可以被送入一个数据集,并可以用来识别基于数据集的假设是否真实。
常见的机器学习算法可以专注于识别数据中的特定模式。许多常见的模式包括回归和分类或聚类,但有许多可能的模式和算法可以通过机器学习应用于数据。
通过采用机器学习,有可能在数据中找到通过人工检查、试错或传统探索技术难以或无法找到的模式或关系。
数据探索的软件
编辑Trifacta--数据准备和分析平台Paxata--自助式数据准备软件Alteryx--数据混合和高级数据分析软件MicrosoftPowerBI--交互式可视化和数据分析工具OpenRefine--独立的开源桌面应用,用于数据清理和数据转换Tableau软件--交互式数据可视化软件。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175556/