2021年9月30日,于 分析和商业智能

阅读7分钟

现代数据堆栈(2021年更新)

The Metabase Team Portrait
Metabase 团队
‧ 2021年9月30日,于 分析和商业智能

‧ 阅读7分钟

分享这篇文章

云、开源和 SaaS 商业模式改变了软件行业以及公司思考和构建产品的方式。如今,我们可以在比以往更少的时间和成本下搭建一个完整的技术堆栈。毫不奇怪,这些转变也为现代数据堆栈铺平了道路。

现代数据堆栈由一组灵活的技术组成,可帮助企业存储、管理和从其数据中学习。通常,现代数据堆栈建立在基于云的服务上,并且越来越多地包含低代码和无代码工具,使非专业用户能够探索和使用数据。

什么是数据堆栈?

“数据堆栈”一词源于“技术堆栈”,这是软件工程师为构建产品和服务而精心组合的不同技术的集合。虽然技术堆栈可能专注于各种用例,但数据堆栈是专门为支持数据存储、管理和访问而构建的。数据堆栈通常由寻求利用其数据进行战略决策的公司构建。

数据堆栈 vs. 数据平台 vs. 数据基础设施

  • 数据堆栈:组织用于存储、管理和访问数据的一组技术和服务。通常,这以技术和服务列表的形式共享,但给定堆栈背后的工作和理论比简单的格式所展现的更为多面。
  • 数据平台:将数据堆栈实施到基础设施中,即您的每项技术和服务如何相互连接。通常以图表形式共享,抽象了底层基础设施,但展示了每个组件如何相互协作。
  • 数据基础设施:为您的数据堆栈提供动力的底层计算系统。通常以图表形式共享,但重点是网络、硬件资源和低级 API。

数据堆栈的演进

底层数据基础设施架构的三个主要变化为现代数据堆栈铺平了道路,并构成了其定义的基础。

1. 从本地部署到云端的迁移

现代数据堆栈通常利用云托管存储在安全性和弹性方面的改进,但更重要的是以极低的成本存储和处理大量数据。

2. 从 ETL 到 ELT 的转变

数据仓库曾经是数据团队的巨大瓶颈。人们主要使用基于行的关系型数据库作为数据仓库,这对于数据分析工作负载来说扩展性不佳,因为它将相关数据分散到多个磁盘或服务器上。即使有了 Hadoop 等技术,Map-Reduce 作业仍然需要数小时才能运行,并且编写和维护起来非常复杂。此外,由于传统数据仓库的处理能力有限,数据工程师通常在加载数据之前编写转换作业,从而产生了 ETL(抽取-转换-加载)这个术语。现在,随着高性能云端列式数据仓库的进步,数据工程师可以在几分钟内运行 PB 级查询。有了现代数据堆栈,他们可以在几分钟内配置并将数据加载到数据仓库中(ELT,抽取-加载-转换),分析师不再需要依赖工程师来转换数据。

3. 自助分析的兴起以实现数据探索的民主化

无论公司规模大小,SQL 知识的限制使得人们无法在没有分析师帮助的情况下访问存储在数据库和仓库中的数据。例如,在传统数据堆栈中,如果客户经理想要一份访问过产品某个区域的客户列表,就需要友好的工程师或分析师帮助他们“拉取”数据。

公司已经认识到这个瓶颈,并使用 Metabase 等商业智能工具,赋能组织中的每个人从数据中探索并找到答案。现在,设计师可以了解其功能的使用情况,高管可以探索战略选择,客户经理可以完成销售,所有这些都无需依赖分析师。

现代数据堆栈的优势

模块化

由于现代数据堆栈由具有普遍标准连接点的技术组成,团队可以根据需求演变来更换堆栈的部件。这有助于他们避免供应商锁定,并允许团队随着数据需求的成熟而扩展其堆栈。

速度(运营和执行)

由于传统数据仓库处理能力的限制,数据管道过去需要数小时甚至数天才能运行。如今,有了现代数据堆栈及其对弹性计算资源的访问,同样的工作可以在几分钟内完成。

此外,由于其组件的独立性,现代数据堆栈的设置和迭代速度显著加快。如今,一家年轻的初创公司可以在短短几小时内构建一个分析堆栈来跟踪他们的实验,而无需编写一行代码——这项工作在传统堆栈中需要数天或数周。

成本

基于云的技术和数据存储通常比其本地部署的对应产品显著节省成本。本地数据仓库需要 100% 的时间支付服务器使用费用,并且使得扩展变得困难或昂贵。而使用 Redshift、Snowflake 和 BigQuery 等云端数据仓库,您只需按使用量付费,并且可以无缝扩展以应对大量工作负载。

现代数据堆栈的组成部分

大多数团队将其数据堆栈分层组织——就像蛋糕一样。并非每个团队都需要涵盖所有层,但每一层都有其独特的作用,有助于构成完整美味的配方。

例如,一位刚尝试验证一些实验的独立创始人可能不需要复杂的转换工具,但可能需要一种方法将其数据源连接到分析工具。

数据源

这是您数据的来源:它可以是您的生产数据库(例如 PostgreSQL)、您的网络服务器日志,或 Stripe、Zendesk 等第三方应用程序,或您正在使用的任何其他产品。团队拥有多个数据源,并将它们全部汇集到集中式数据存储解决方案中是很常见的。

数据摄取

这是数据从数据源移动并规范化到数据存储的方式。

这个领域的三个主要公司是:Fivetran、Stitchdata 和 Segment。

数据存储

这是所有来自数据源的数据聚合和存储的地方。在成熟的数据堆栈中,它通常是数据仓库,但在早期阶段的公司中,它可能只是您应用程序数据库的只读副本

这个领域的三家主要公司是:Snowflake、Amazon Redshift 和 Google BigQuery。

数据转换和建模

数据转换和建模有助于将不同的数据源打包成用户友好的模型,以便人们无需筛选原始数据并猜测其代表的含义即可探索这些组合集。

这个领域的知名公司有:dbt 和 Dataform。

数据分析

有时简化为“数据可视化”或“商业智能”,数据分析帮助用户探索数据并从中发现洞察。这通常涉及构建可视化或其他表示,并且可以包括开发仪表盘和其他监控工具。

现代数据分析包括帮助非技术用户探索数据而无需了解 SQL 的工具。这使他们摆脱了对开发人员和分析师的依赖,并鼓励每个人探索和从数据中学习。

我们有点偏见,但我们认为 Metabase 是一个不错的选择。您可以在这里试用

数据操作化

又称“逆向 ETL”,数据操作化是将数据从数据仓库移回第三方系统以使数据可操作的过程。例如,将客户数据从您的仓库同步到您的客户服务软件中,以便您的前线代理能够更好地支持他们。

这个领域的知名公司有:Census 和 Hightouch。

本文只是冰山一角,但我们希望它能让您清楚地了解构建和使用现代数据堆栈的特点和优势。

祝好,

Metabase 团队

您可能还会喜欢

所有文章
What is embedded analytics? Image 2025年5月15日,于 分析和商业智能

什么是嵌入式分析?

嵌入式分析意味着让您的用户直接在您的产品中访问图表、指标和报告,这样他们就可以在不离开您的应用程序或不依赖他人获取答案的情况下,探索和处理他们的数据。

Alex Yarosh Portrait
Alex Yarosh

阅读11分钟

Top 5 Dashboard fails (and how to fix them) Image 2025年4月25日,于 分析和商业智能

5 大仪表盘失败案例(及如何修复)

仪表盘旨在指导决策,而非制造混乱。在本指南中,我们将探讨五个常见陷阱以及如何修复它们。

Abed Habli Portrait
Abed Habli

阅读7分钟

所有文章
© . All rights reserved.