数据清洗
编辑数据清理,包括用于删除和更正数据库或其他信息系统中数据错误的各种方法。 例如,错误可能包括不正确的(最初是错误的或过时的)、冗余的、不一致的或格式错误的数据。
数据清洗的基本步骤是重复检测(相同数据集的检测和合并)和数据融合(合并和补全不完整的数据)。
数据清洗是对提高数据质量的贡献。 但是,这也会影响数据源的属性(可信度、相关性、可用性),而使用数据清洗无法改善这些属性。
数据清洗流程
编辑数据清理过程分为五个连续步骤:
- 数据质量 - 指定数据要求
- 分析数据
- 创建文件/表的备份副本
- 标准化
- 清理数据
数据质量 - 要求
高质量和可靠的数据必须满足某些要求,例如
分析数据
需求明确后,数据必须借助检查表,可以检查它们达到要求质量的程度。 这导致各自的错误率。
备份
在清理数据之前,您应该将原始的错误数据保存为副本,并且在任何情况下都不要在清理后简单地将其删除。 否则调整将无法理解。 此外,这样的过程将无法通过审计。
存档的替代方法(尤其是在有多次清理运行时)是将更正后的值保存在附加列中。 另一种选择是将其存储在附加行中。 要更正大量列和行的最后一个选项是创建一个单独的表。 相应的决定还取决于可用的存储空间。
标准化
为了成功清理,可能需要对数据进行标准化。 这取决于数据分析的结果和错误率。
结构化使数据采用统一或改进的格式,例如,日期采用统一的数据格式 (01.09.2009)。 或者复合数据被分解成它的组成部分,例如 姓名中的客户姓名组成部分称呼、职务、名字和姓氏。 这种结构化通常不是微不足道的,并且是在复杂的解析器的帮助下进行的。
在规范化期间,现有值被映射到规范化的值列表。 这种标准化可以例如 B. 为称呼、学术头衔或公司加注。 例如,公司增加 Kfr. 和 Kfm 由归一化值 ,必须更换,这xxx简化了后续清理工作。
清理数据
清洗数据有六种方法,可以单独使用,也可以组合使用:
- 从其他数据中得出:正确的值是从其他数据中得出的(例如,来自性别的称呼)。
- 用其他数据替换:不正确的数据被替换为其他数据(例如来自其他系统)。
- 使用默认值:使用默认值代替不正确的数据。
- 删除不正确的数据:数据被过滤掉,不再进一步处理。
- 删除重复项:通过重复检测识别重复项,合并重复项中的非冗余数据并创建单个数据集。
- 拆分摘要:与删除重复项不同,错误摘要的数据会再次分开。
例子
编辑一个特别常见的情况是地址中的数据清洗,其中街道名称可以有不同的拼写。 名字的拼写也可能不同,尽管在个别情况下可能是同一个人。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/347397/