数据仓库 vs 数据湖 vs 数据集市
您可能会经常听到这些术语,因此这里提供一些关于数据仓库、数据湖和数据集市之间差异的背景信息。
关于这些标准数据仓库术语的问题在于它们并不出色。它们是充满隐喻的模糊营销词汇,因此即使是经验丰富的数据人员也可能对它们到底指的是什么感到困惑。有时它们可以指代具体事物,有时也可以指代非常抽象的事物。我们撰写本文的原因是您可能会经常听到这些术语,并且希望为您提供关于每个术语的一些背景信息。
如果您正在寻找关于使用什么来存储分析数据的建议,请查看 应该使用哪个数据仓库?。
数据仓库
数据仓库 只是一个结构化的地方,您可以在其中放置要查询的数据。它可以是具有列式存储的可扩展数据库,针对处理大量数据的查询进行了优化,也可以是带有一些文件柜的房间。这里的要点是,数据仓库与您的生产数据库是不同的,即使该数据仓库只是您的 PostgreSQL 生产数据库的副本。它是一个旨在保留数据用于分析的地方,而不是满足您的应用程序或服务的需求。数据仓库本质上也是只读的;唯一应该写入数据仓库的是 ETL。
理想情况下,您会希望以一种可以预测您要提出的问题类型的方式组织数据。这意味着您需要获取针对您的应用程序事务优化的 规范化数据,以及来自第三方应用程序和服务的全部数据转储(想想来自您的客户关系管理软件的所有来之不易的数据),并将其 ETL 到列或表格中,以便轻松回答诸如以下问题:上个月与上个月相比有多少客户注册,或者入职流程的哪个部分下降幅度最大?
您还会听到人们将数据仓库专门称为一种特定类型的数据库或云服务,专门用于分析查询处理。BigQuery、Redshift、Snowflake 和 Vertica 等数据仓库专为聚合和过滤大量数据而设计。另一方面,它们不适合用作应用程序数据库,因为它们不擅长查找特定记录(例如,在用户登录时返回某人的个人资料信息)。
数据湖
数据湖 是来自所有来源的所有数据的转储地(通常在类似于分布式文件系统的对象存储服务中,例如 AWS 的 S3)。此数据不一定是结构化的(您甚至不需要文件柜)。数据湖的优势在于您不必预先确定要在数据上运行的查询类型。数据仓库很棒,但它们可能需要大量工作才能设置,包括弄清楚您要如何建模数据,然后实际将数据从所有混乱的来源转换为该结构。使用数据湖,您只需根据需要使用 ETL 设置表格。您可以使用 Presto 等查询引擎,让您可以使用 SQL 查询分布在多个 S3 存储桶中的数据(本质上是分布式文件系统)。或者您可以在数据湖的部分数据上训练机器学习模型。
一些云提供商提供数据湖产品,例如 AWS 的 Data Lake,其中数据湖“产品”是服务的特定组合(“基础设施组件”),这些服务共同帮助您将数据进出存储,在本例中为 AWS 的 S3 (Simple Storage Service)。另一种方法,BigQuery 使用的方法是联邦数据源,其中“湖”不是一个地方,而是 BigQuery 可以查询的多个地方。
数据集市
数据集市本质上是一组仪表盘,用于分析来自数据仓库或湖泊子集的数据,以实现特定的业务功能。也就是说,数据集市将数据仓库或湖泊的一部分(为团队或分析领域策划)与分析该数据的仪表盘和可视化效果相结合。它们不是您可以购买的东西;而是您的组织必须定义和构建的东西。
数据集市通常被认为是 数据堆栈 的垂直切片,其中这些切片对应于组织内的不同团队。因此,企业营销团队的示例数据集市将包括所有表格和模型(以及汇总团队感兴趣的事实和维度的摘要表)、构建这些表格的 ETL,以及该策划数据的“人机界面”:BI 工具(如 Metabase)以及营销团队已创建的图表和仪表盘(或传统上由数据或工程团队为他们设置的)。
数据集市不一定非得那么僵化,而且它们也不应该如此。如果您愿意,可以在 Metabase 中将一组问题和仪表盘组合在一起,涵盖运营团队感兴趣的一切内容,并将其称为运营数据集市。您还可以按主题组织数据及其分析:这是我们对客户了解的一切,我们对供应链、激活流程等等了解的一切。BI 工具还可以做一些很酷的事情,您可以使用带有过滤器的仪表盘,以便轻松地调整到特定产品或类别或其他任何东西。
数据集市作为一个概念已经存在一段时间了,但您现在不太常听到这个术语了。传统上,数据集市的开发是由数据或工程团队为其他团队完成的,这可能是好事也可能是坏事。如果它确保数据易于使用、探索和扩展,那是好事;当它孤立数据并通过使提出相关问题或整合来自其他地方的数据变得困难时,那就是坏事。但是,数据集市背后的基本思想(组织数据以使人们更容易提出问题)与 Metabase 对商业智能的看法密切相关。BI 应该是自助式的,因此良好的数据集市设计不仅仅是给人们一组答案,而是给人们提供他们需要的工具来回答这些问题、剖析这些答案并提出自己的问题。
延伸阅读
下一步:应该使用哪个数据仓库?
您选择哪个数据仓库取决于您正在处理多少数据。本指南将引导您了解您的选择,无论您是小型初创公司还是大型企业。