数据清洗

编辑
本词条由“匿名用户” 建档。

数据清理,包括用于删除和更正数据库或其他信息系统中数据错误的各种方法。例如,错误可能包括不正确的(最初是错误的或过时的)、冗余的、不一致的或格式错误的数据。 数据清洗的基本步骤是重复检测(相同数据集的检测和合并)和数据融合(合并和补全不完整的数据)。 数据清洗是对提高数据质量的贡献。但是,这也会影响数据源的属性(可信度、相关性、可用性),而使用数据清洗无法改善这些属性。 数据清理过程分为五个连续步...

数据清洗

编辑

数据清理,包括用于删除和更正数据库或其他信息系统中数据错误的各种方法。 例如,错误可能包括不正确的(最初是错误的或过时的)、冗余的、不一致的或格式错误的数据。

数据清洗的基本步骤是重复检测(相同数据集的检测和合并)和数据融合(合并和补全不完整的数据)。

数据清洗是对提高数据质量的贡献。 但是,这也会影响数据源的属性(可信度、相关性、可用性),而使用数据清洗无法改善这些属性。

数据清洗流程

编辑

数据清理过程分为五个连续步骤:

  • 数据质量 - 指定数据要求
  • 分析数据
  • 创建文件/表的备份副本
  • 标准化
  • 清理数据

数据质量 - 要求

高质量和可靠的数据必须满足某些要求,例如

  • 有效数据:相同的数据类型
  • 完整数据
  • 统一数据:相同的单位(例如货币、重量、长度)
  • 完整数据:必须保护数据免遭有意和/或无意的操纵。

分析数据

需求明确后,数据必须借助检查表,可以检查它们达到要求质量的程度。 这导致各自的错误率。

备份

在清理数据之前,您应该将原始的错误数据保存为副本,并且在任何情况下都不要在清理后简单地将其删除。 否则调整将无法理解。 此外,这样的过程将无法通过审计。

存档的替代方法(尤其是在有多次清理运行时)是将更正后的值保存在附加列中。 另一种选择是将其存储在附加行中。 要更正大量列和行的最后一个选项是创建一个单独的表。 相应的决定还取决于可用的存储空间。

标准化

为了成功清理,可能需要对数据进行标准化。 这取决于数据分析的结果和错误率。

结构化使数据采用统一或改进的格式,例如,日期采用统一的数据格式 (01.09.2009)。 或者复合数据被分解成它的组成部分,例如 姓名中的客户姓名组成部分称呼、职务、名字和姓氏。 这种结构化通常不是微不足道的,并且是在复杂的解析器的帮助下进行的。

在规范化期间,现有值被映射到规范化的值列表。 这种标准化可以例如 B. 为称呼、学术头衔或公司加注。 例如,公司增加 Kfr. 和 Kfm 由归一化值 ,必须更换,这xxx简化了后续清理工作

数据清洗

清理数据

清洗数据有六种方法,可以单独使用,也可以组合使用:

  • 从其他数据中得出:正确的值是从其他数据中得出的(例如,来自性别的称呼)。
  • 用其他数据替换:不正确的数据被替换为其他数据(例如来自其他系统)。
  • 使用默认值:使用默认值代替不正确的数据。
  • 删除不正确的数据:数据被过滤掉,不再进一步处理。
  • 删除重复项:通过重复检测识别重复项,合并重复项中的非冗余数据并创建单个数据集。
  • 拆分摘要:与删除重复项不同,错误摘要的数据会再次分开。

例子

编辑

一个特别常见的情况是地址中的数据清洗,其中街道名称可以有不同的拼写。 名字的拼写也可能不同,尽管在个别情况下可能是同一个人。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/347397/

(4)
词条目录
  1. 数据清洗
  2. 数据清洗流程
  3. 数据质量 - 要求
  4. 分析数据
  5. 备份
  6. 标准化
  7. 清理数据
  8. 例子

轻触这里

关闭目录

目录