‧
7 分钟阅读
现代数据栈(2021年更新版)
Metabase 团队
‧ 7 分钟阅读
分享本文
云、开源和 SaaS 商业模式改变了软件行业以及公司思考和构建产品的方式。如今,我们可以在更短的时间、以更低的成本搭建整个技术栈。这些转变为现代数据栈铺平道路,也就不足为奇了。
现代数据栈由一套灵活的技术组成,可帮助企业存储、管理和学习其数据。通常,现代数据栈基于云服务构建,并且越来越多地包含低代码和无代码工具,以赋能用户探索和使用数据。
什么是数据栈?
“数据栈”一词源于“技术栈”,后者是软件工程师为构建产品和服务而精心组合的不同技术。虽然技术栈可能专注于各种用例,但数据栈是专门为支持数据存储、管理和访问而构建的。数据栈通常由寻求利用其数据进行战略决策的公司构建。
数据栈 vs. 数据平台 vs. 数据基础设施
- 数据栈:组织用于存储、管理和访问数据的一组技术和服务。通常以技术和服务列表的形式共享,但给定数据栈背后的工作和理论远比简单格式所体现的要复杂得多。
- 数据平台:将数据栈实施到基础设施中,即您的各项技术和服务如何相互连接。通常以图表形式共享,它抽象了底层基础设施,但展示了各个组件如何相互协作。
- 数据基础设施:为数据栈提供支持的底层计算系统。通常以图表形式共享,但侧重于网络、硬件资源和低级API。
数据栈的演变
底层数据基础设施架构的三大主要变化为现代数据栈铺平了道路,并构成了其定义的基础。
1. 从本地到云端
现代数据栈通常利用云托管存储在安全性和弹性方面的改进,但更重要的是以极低的成本存储和处理大量数据。
2. 从ETL到ELT的转变
数据仓库曾经是数据团队的巨大瓶颈。人们大多使用基于行的关系数据库作为数据仓库,但它对数据分析工作负载的扩展性不佳,因为它将相关数据分散到多个磁盘或服务器上。即使有了Hadoop等技术,map-reduce任务仍然需要数小时才能运行,并且编写和维护起来非常复杂。此外,由于传统数据仓库的处理能力有限,数据工程师过去常常在加载数据之前编写转换任务,从而产生了ETL(抽取-转换-加载)一词。现在,随着高性能云端列式数据仓库的进步,数据工程师可以在几分钟内运行PB级查询。借助现代数据栈,他们可以在几分钟内配置并将数据加载到数据仓库中(ELT,抽取-加载-转换),分析师不再需要依赖工程师来转换数据。
3. 自助式分析的兴起以实现数据探索的民主化
无论公司规模大小,SQL知识限制了人们在没有分析师帮助的情况下访问存储在数据库和仓库中的数据。例如,在传统数据栈中,一位客户经理想要一份访问过产品某个区域的客户列表,就需要友好的工程师或分析师的帮助来“提取”数据。
公司已经认识到这个瓶颈,并使用像Metabase这样的商业智能工具,让组织中的每个人都能够探索数据并从中找到答案。现在,设计师可以了解其功能的使用情况,高管可以探索战略选项,客户经理可以完成销售,所有这些都无需依赖分析师。
现代数据栈的优势
模块化
由于现代数据栈由具有通用标准连接点的技术组成,团队可以根据需求变化更换堆栈的各个部分。这有助于他们避免供应商锁定,并允许团队随着数据需求的成熟而扩展其堆栈。
速度(操作和执行)
由于传统数据仓库的处理能力限制,数据管道过去需要数小时甚至数天才能运行。如今,借助现代数据栈及其对弹性计算资源的访问,同样的工作可以在几分钟内完成。
此外,由于其组件的独立性,现代数据栈的设置和迭代速度显著加快。如今,一家初创公司可以在短短几小时内构建一个分析栈来跟踪其实验,而无需编写一行代码——这项工作在传统数据栈中需要几天或几周。
成本
基于云的技术和数据存储通常比其本地部署的同类产品显著节省成本。本地数据仓库需要100%的时间支付服务器使用费,并且难以或昂贵地扩展。而使用Redshift、Snowflake和BigQuery等基于云的数据仓库,您只需按使用量付费,并可以无缝扩展以应对大量工作负载。
现代数据栈的组成部分
大多数团队将其数据栈分成多层——就像蛋糕一样。并非每个团队都需要覆盖每一层,但每一层都有独特的作用,有助于构成完整、美味的配方。
例如,一个刚刚尝试验证一些实验的独立创始人可能不需要复杂的转换工具,但可能需要一种方法将其数据源连接到分析工具。
数据源
这是您数据的来源:它可以是您的生产数据库(例如 PostgreSQL)、您的 Web 服务器日志,或者 Stripe、Zendesk 或您正在使用的任何其他第三方应用程序。团队通常有多个数据源,所有这些数据源都汇集到集中式数据存储解决方案中。
数据摄取
这是数据从数据源移动并规范化到数据存储的方式。
该领域的三个主要公司是:Fivetran、Stitchdata 和 Segment。
数据存储
这是来自数据源的所有数据聚合和存储的地方。在成熟的数据栈中,它通常是数据仓库,但在早期公司中可能只是数据库的只读副本。
该领域的三个主要公司是:Snowflake、Amazon Redshift 和 Google BigQuery。
数据转换和建模
数据转换和建模有助于将不同的数据源打包成用户友好的模型,以便人们无需筛选原始数据并猜测它们代表什么,即可探索这些组合数据集。
该领域的知名公司有:dbt 和 Dataform。
数据分析
有时简化为“数据可视化”或“商业智能”,数据分析帮助用户探索数据并从中发现洞察。这通常涉及构建可视化或其他表示形式,并可以包括开发仪表板和其他监控工具。
现代数据分析工具可帮助非技术用户探索数据,而无需了解 SQL。这使他们摆脱了对开发人员和分析师的依赖,并鼓励每个人探索和学习数据。
我们可能有点偏颇,但我们认为 Metabase 是一个不错的选择。您可以在此处试用。
数据运营化
也称为“逆向 ETL”,数据运营化是将数据从数据仓库移回第三方系统以使数据可操作的过程。例如,将客户数据从您的仓库同步到您的客户服务软件,以便您的前线代理可以更好地支持他们。
该领域的知名公司有:Census 和 Hightouch。
本文只是冰山一角,但我们希望它能让您清楚地了解构建和使用现代数据栈的特点和优势。
祝好,
Metabase 团队