简介
编辑数据湖是以自然/原始格式存储的数据系统或存储库,通常是对象 blob 或文件。数据湖通常是单一数据存储,包括源系统数据、传感器数据、社交数据等的原始副本,以及用于报告、可视化、高级分析和机器学习等任务的转换数据。
数据湖可以包括来自关系数据库(行和列)的结构化数据、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图像、音频、视频)。可以在本地(在组织的数据中心内)或在云服务建立数据湖。
管理不善的数据湖被戏称为数据沼泽。
背景
编辑James Dixon 在 2011 年创造了这个词,以将其与数据集市进行对比,数据集市是从原始数据中提取的有趣属性的较小存储库。在推广数据湖时,他认为数据集市有几个固有的问题,例如信息孤岛。
例子
编辑许多公司使用 Google Cloud Storage 和 Amazon S3 等云存储服务或 Apache Hadoop 分布式文件系统 (HDFS) 等分布式文件系统。学术界对数据湖的概念逐渐产生了兴趣。
例如,卡迪夫大学的 Personal DataLake 是一种新型数据湖,旨在通过提供收集、组织和共享个人数据的单一点来管理个人用户的大数据。
早期的数据湖 (Hadoop 1.0) 的面向批处理的处理 (Map Reduce) 功能有限,并且是唯 一与之关联的处理范式。
与数据湖交互意味着必须具备 Java 方面的专业知识,使用 map reduce 和更高级别的工具,如 Apache Pig、Apache Spark 和 Apache Hive(它们本身最初是面向批处理的)。
批评
编辑2015 年 6 月,David Needle 将所谓的数据湖描述为最 具争议的大数据管理方式之一。
我们看到客户创建了大数据墓地,将所有内容都转储到 Hadoop 分布式文件系统 (HDFS) 中,并希望在未来用它做点什么。但随后他们就忘记了那里有什么。主要挑战不是创建数据湖,而是利用它提供的机会。
他们将构建成功数据湖的公司描述为随着他们弄清楚哪些数据和元数据对组织很重要而逐渐成熟他们的湖。
另一个批评是数据湖这个术语没有用,因为它有很多不同的使用方式。例如,它可以用来指代:任何不是数据仓库的工具或数据管理实践;用于实施的特定技术;原始数据储存库;ETL 卸载中心;或自助服务分析的中心枢纽。
虽然对数据湖的批评是有道理的,但在许多情况下,它们也适用于其他数据项目。例如,“数据仓库”的定义也是多变的,并不是所有的数据仓库努力都取得了成功。在回应各种批评时,麦肯锡指出,数据湖应被视为在企业内提供业务价值的服务模型,而不是技术成果。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/249390/