2021年9月30日,发布于 分析和商业智能

7 分钟阅读

现代数据栈(2021 年更新)

The Metabase Team Portrait
Metabase 团队
‧ 2021年9月30日,发布于 分析和商业智能

‧ 7 分钟阅读

云、开源和SaaS业务模式彻底改变了软件行业以及公司对产品及其构建方式的思考方式。如今,我们可以在比以前更短的时间内以更低的成本搭建起一套完整的技术栈。这些转变也为现代数据栈铺平了道路,这并不令人意外。

现代数据栈由一套灵活的技术组成,帮助企业存储、管理和学习其数据。通常,现代数据栈构建在云服务之上,并越来越多地包含低代码和无代码工具,从而使用户能够探索和使用数据。

什么是数据栈?

“数据栈”一词源自“技术栈”,即软件工程师为了构建产品和服务而组合不同技术的深思熟虑的组合。虽然技术栈可能侧重于各种用例,但数据栈专门用于支持数据的存储、管理和访问。数据栈通常由寻求利用其数据进行战略决策的公司构建。

数据栈 vs. 数据平台 vs. 数据基础设施

  • 数据栈:组织用于存储、管理和访问数据的技术和服务集合。通常,这被列为一系列技术和服务,但给定数据栈背后付出的努力和理论比简单的格式所显示要复杂得多。
  • 数据平台:您数据栈在基础设施中的实现,即您的每项技术和服务如何相互连接。通常,这以图表的形式共享,该图表抽象了底层基础设施,但显示了每个组件如何与其他组件协同工作。
  • 数据基础设施:为您的数据栈提供动力的底层计算系统。通常以图表的形式共享,但重点是网络、硬件资源和低级 API。

数据栈的演变

底层数据基础设施架构的三个主要变化为现代数据栈铺平了道路,并构成了其定义的基础。

1. 从本地部署到云端的迁移

现代数据栈通常利用云托管存储在安全性、弹性方面的改进,但更重要的是,以极低的成本存储和处理大量数据。

2. 从ETL转向ELT

数据仓库曾经是数据团队的一个巨大瓶颈。大多数人使用基于行的关系数据库作为数据仓库,这些数据库在数据分析工作负载方面扩展性不佳,因为它们会将相关数据分散到多个磁盘或服务器上。即使有了像 Hadoop 这样的技术,map-reduce 作业仍然需要数小时才能运行,并且编写和维护起来非常复杂。此外,由于传统数据仓库的处理能力有限,数据工程师通常会在加载数据之前编写转换作业,因此产生了ETL(提取-转换-加载)这个术语。如今,随着高性能的云端列式数据仓库的进步,数据工程师可以在几分钟内运行 PB 级查询。使用现代数据栈,他们可以在几分钟内配置并开始将数据加载到数据仓库中(ELT,提取-加载-转换),分析师不再需要依赖工程师进行数据转换。

3. 自助服务分析的兴起,以实现数据探索的民主化

无论公司规模如何,SQL知识都限制了人们在没有分析师帮助的情况下访问数据库和数据仓库中存储的数据。例如,在传统数据栈中,想要一份访问了产品特定区域的客户列表的客户执行官需要帮助友好的工程师或分析师来为他们“提取”数据。

公司已经认识到这一瓶颈,并使用 Metabase 等商业智能工具来赋能组织中的每个人,让他们能够从数据中探索和找到答案。现在,设计师可以了解他们功能的用法,高管可以探索战略选择,客户执行官可以开展销售工作,而所有这些都无需依赖分析师。

现代数据栈的优势

模块化

由于现代数据栈由具有通用连接点的技术组成,团队可以根据不断变化的需求替换堆栈中的部分组件。这有助于他们避免供应商锁定,并允许团队随着数据需求的成熟而扩展其数据栈。

速度(运营和执行)

由于传统数据仓库的处理能力有限,管道的运行通常需要数小时,甚至数天。如今,借助现代数据栈及其对弹性计算资源的访问,相同的工作可以在几分钟内完成。

此外,由于其组件的自包含性,现代数据栈的设置和迭代速度明显更快。今天,一家初创公司可以在几个小时内搭建一个分析栈来跟踪其实验,而无需编写任何代码——这在传统数据栈中需要数天或数周才能完成的工作。

成本

与本地部署的对应产品相比,基于云的技术和数据存储通常可以节省大量成本。本地数据仓库需要 100% 的时间支付服务器使用费,并且扩展困难或成本高昂。使用像 Redshift、Snowflake 和 BigQuery 这样的云数据仓库,您只需为您使用的付费,并且可以无缝扩展以处理大量工作负载。

现代数据栈的组成部分

大多数团队将他们的数据栈组织成层——就像蛋糕一样。并非所有团队都需要涵盖每一层,但每一层都扮演着独特的角色,有助于构建出完整、美味的配方。

例如,一个只是想验证一些实验的独立创始人可能不需要复杂的转换工具,但可能需要一种方法将他们的数据源连接到分析工具。

数据源

这是您数据来源的地方:可以是您的生产数据库(例如 PostgreSQL)、您的 Web 服务器的日志,或者像 Stripe、Zendesk 等第三方应用程序,或您正在使用的任何其他产品。团队拥有多个数据源是很常见的,所有这些数据源都会汇集到集中的数据存储解决方案中。

数据摄取

这是数据从数据源移动并规范化到您的数据存储中的方式。

该领域的三家主要公司是:Fivetran、Stitchdata 和 Segment。

数据存储

这是来自数据源的所有数据被汇总和存储的地方。在成熟的数据栈中,它通常是数据仓库,但在早期公司中,它可能只是应用程序数据库的只读副本

该领域的三家主要公司是:Snowflake、Amazon Redshift 和 Google BigQuery。

数据转换和建模

数据转换和建模有助于将不同的数据源打包成用户友好的模型,以便人们可以探索这些组合数据集,而无需筛选原始数据并猜测它们的含义。

该领域的知名公司:dbt 和 Dataform。

数据分析

有时简称为“数据可视化”或“商业智能”,数据分析帮助用户探索其数据并从中发现洞察。这通常涉及构建可视化或其他表示形式,并可以包括开发仪表板和其他监控工具。

现代数据分析包括帮助非技术用户探索数据的工具,而无需了解 SQL。这使他们摆脱了对开发人员和分析师的依赖,并鼓励每个人都从数据中进行探索和学习。

我们非常主观,但我们认为 Metabase 是一个很棒的选择。您可以在此处试用

数据运营化

也称为“反向 ETL”,数据运营化是将数据从数据仓库移回第三方系统的过程,以使数据可用。例如,将客户数据从您的数据仓库同步到您的客户服务软件,以便您的前线代理能够更好地支持他们。

该领域知名公司:Census 和 Hightouch。

这篇文章只是冰山一角,但我们希望它能让您清楚地了解构建和使用现代数据栈的特点和优势。

祝好,

Metabase 团队

您可能还喜欢

所有文章
应显示在仪表板上的10个B2B SaaS产品指标图片 2025年11月10日,在分析与商业智能

10 个 B2B SaaS 产品指标,应出现在您的仪表板上

SaaS 产品关键指标指南 - 从网站到注册、激活率再到流失率和净收入复购率

Tanya Aulachynskaya Portrait
Tanya Aulachynskaya

阅读 11 分钟

如何构建销售团队真正使用的销售仪表板图片 2025 年 7 月 9 日,分类:分析与商业智能

如何构建销售团队真正会用的销售仪表盘

构建一个您的团队真正会使用的销售仪表盘。查看 10 个关键指标、技巧以及 Metabase 中的一个实时示例。

Margaret Rimek Portrait
Margaret Rimek

4 分钟阅读

所有文章
订阅新闻通讯
Metabase 的更新和新闻
© . This site is unofficial and not affiliated with Metabase, Inc.