‧
7 分钟阅读
Metabase 社区数据栈报告 2025

Alex Yarosh
‧ 7 分钟阅读

分享本文
我们询问了来自 50 多个国家的 330 多个团队如何构建和使用他们的数据栈,从工具选择到 AI 应用。以下是我们的发现。
为 2025 年数据栈决策构建社区资源
在本报告中,我们询问了团队如何构建他们的数据栈:他们选择什么工具,面临什么挑战,以及对未来的计划。我们的目标是建立一个由社区提供、开源的资源,帮助人们在数据工具方面做出明智的决策,共同塑造现代数据实践。
在 2025 年,我们收到了来自 330 多个各种规模团队的反馈——从两人初创公司到拥有数百名员工的组织——涵盖了 15 多个不同行业和 50 多个国家。团队分享了他们的工具选择、采用时间、满意度,以及 AI 如何改变他们的工作方式。我们将所有这些智慧汇编成一份报告(当然,是用 Metabase 构建的),并向社区开放。
如果你想直接查看完整报告,请前往。
关键要点
大多数数据团队规模较小,即使在大公司也是如此
在我们的调查中,大多数公司在达到 20-50 人规模时开始构建他们的数据栈——但话又说回来,我们调查的大多数公司也恰好是这个规模,所以请对这一点持保留态度。我们发现,数据团队的规模变化不大——大多数数据团队在 1-3 人左右,即使在拥有数百名员工的公司中也是如此。
PostgreSQL 在事务和分析工作负载中均占主导地位
Postgres 是最受欢迎的事务型数据库,也是最受欢迎的分析存储。无论主要关注点是什么,它都是人们选择最多的数据库,也是大多数考虑更换当前工具的人所考虑的替代品。它还是我们受访者中评分最高的事务型数据库,并且在分析存储工具中排名前三。
50% 的团队不使用数据仓库或数据湖来存储他们的分析数据
几乎我们询问的每个人都将他们的分析数据与事务数据分开,但——或许令人惊讶的是——大约一半的受访者没有使用专门的工具(如数据仓库或数据湖)来存储他们的分析数据。我们对此不做评判:我们长期以来一直认为你不需要数据仓库(直到你需要为止)。
拥有更大数据团队的较大公司更有可能使用数据仓库和数据湖,可能是因为大公司有更密集的数据需求。
ETL 和转换工具作为数据成熟度指标
大约 60% 的人使用摄取/ETL 工具,大约 60% 的人使用建模/转换工具——其中大多数人同时使用这两种工具。反向 ETL 也很普遍:如果你的公司需要反向 ETL(并非每家公司都需要),你很可能也会使用摄取和建模工具。公司也倾向于在同一时间采用这些工具。因此,如果你的数据之旅已经到了考虑使用摄取工具的阶段——你可能需要评估一下是否也该添加一个建模工具了。
令我们惊讶的是
AI 信任度与 AI 采用率并不一致
几乎所有行业、角色和公司规模的人都采用了 AI 查询和代码生成。当然,这在 2025 年已不是新闻,但令我们惊讶的是,考虑到近乎普遍的采用率,人们对 AI 查询结果的信任度实际上很低。技术性更强的角色的人往往更不信任 AI 结果。
工程师最难取悦
在整个数据栈中,软件和数据工程师对他们的工具给出的评分始终较低。唯一的例外是建模/转换工具,这些工具产生的数据的最终用户(如产品经理)对它们的评分远低于其他工具,而处理日常工作的人(数据工程师)则给出了更高的评分。
单个工具的重要性不如它们如何协同工作
人们对数据栈中单个工具的评分普遍高于对整个数据栈的评分。我们认为这是因为,即使你拥有世界上处理特定任务的最佳工具,但如果无法确保数据在整个数据栈中的流动是顺畅和透明的,那也无关紧要。与整个数据栈评分最接近的工具是摄取/ETL 工具,其全部目的就是促进数据在数据栈中的流动。
报告背后的方法论和分析过程
我们 Metabase 的人认为 Metabase 是分析和呈现调查结果的最佳工具,这可能不会让你感到惊讶。
我们的调查通过 Typeform 表单进行,它为我们提供了 CSV 格式的结果。然后我们将该 CSV 上传到 Metabase 云存储进行分析——甚至不需要设置数据库。
数据需要一些额外的格式化和清理——比如为了更好的呈现而重新标记答案、处理不同的拼写,或者将不同类型的分析存储的答案合并到一个列中——所以我们使用了一个 Metabase 模型来基于原始 CSV 创建一个清理和转换后的数据集。
Metabase 有一个内置的图形化查询构建器,我们用它来基于我们增强的 CSV 模型构建诸如“按角色划分的平均满意度”之类的问题,并在不编写任何代码的情况下构建可视化图表。
这足以满足我们感兴趣的所有探索——除了一个(你能猜到是哪个吗?)。有一个问题需要一个更复杂的查询,所以为了处理它,我们对我们的 CSV 使用了 SQL:当你将数据上传到 Metabase 云存储时,你实际上是将它放入一个 ClickHouse 数据库中,所以你可以使用 Metabase 通过 SQL 查询 CSV 中的数据。在我们这个特殊问题的案例中,我们使用了 SQL 而不是图形化查询构建器,因为我们需要使用 UNION
。
在 Metabase,我们对构建仪表盘的最佳实践有很多强烈的看法,我们审慎地应用了这些实践来构建一个仪表盘,它既能传达我们发现的有趣见解,又确保避免歪曲数据。
我们希望仪表盘在视觉上脱颖而出,所以我们定义了一个自定义调色板,并上传了一个自定义字体到我们的 Metabase 实例,并在仪表盘上使用了它。
仪表盘准备好后,我们创建了一个公共嵌入,这样人们就可以在没有 Metabase 账户的情况下访问仪表盘,然后我们直接将嵌入 iframe 到我们的网站中。
探索完整报告
你可以查看完整报告,或者,如果你想对调查数据进行自己的分析,我们已经为你设置了一个仓库,它会启动一个预加载了匿名调查数据的 Metabase,这样你就可以自己探索了。
让我们开始讨论吧。发布你的见解并标记我们!我们乐于看到你的实际应用。