2023 年 Metabase 社区数据堆栈报告

数据工具和自助分析的现状概览

今年早些时候,我们通过社交渠道和电子邮件发布了一项匿名数据堆栈调查,以了解更多关于数据工具及其对不同公司规模和角色的影响。

该调查面向所有人开放,但在我们收到的 189 份回复中,89% 是 Metabase 客户。

虽然由于样本量较小,我们不能说我们的见解在统计学上具有代表性,但结果有一些您可能想知道的事情,例如,某种特定的数据库如何会使您团队的士气更低落……请继续阅读以了解更多。

Blue Star

复制到剪贴板 大型公司更倾向于选择开源的数据工具

探索仪表盘

75% 的受访者表示他们正在使用开源生产数据库,因此 Postgres 和 MySQL 在整个调查中最常被提及也就不足为奇了。 但一个惊喜是:大型公司通常更频繁地选择开源生产数据库。

大型公司表示,开源是选择生产数据库的决定性因素,而不是性能、可扩展性和安全性。

顺应这一趋势,75% 的大型公司受访者表示 dbt 目前是他们数据堆栈的一部分。开源也是他们选择数据建模工具的前三大原因之一。

开源遍布调查结果的每个角落,考虑到我们的社区围绕所有开源工具(而不仅仅是 BI)团结起来,这并不令人惊讶。

Beige S

复制到剪贴板 客户数据比以往任何时候都更有价值。社交媒体数据? 没那么重要。

Salesforce 是排名第一的上游数据源。Stripe 和 Slack 也位居前五。我们很好奇您正在提取哪些 Slack 数据……

说到前五名,这些工具都包含相当多的 PII,因此令我们惊讶的是,92% 的受访者没有选择安全性和合规性作为他们选择数据存储选项的首要原因。(这值得进行另一项调查……)

不足为奇的是:许多人不再从某个社交媒体平台提取数据了。

每月 42,000 美元的企业 API 成本可能是压垮骆驼的最后一根稻草。X,前身为 Twitter (RIP),勉强进入我们的前十名上游数据源。
探索仪表盘
Pink Hourglass

复制到剪贴板 即使市场上有这么多选择,大多数公司仍然将数据提取保留在内部

Airbyte 和 Fivetran 跻身前三,但内部数据提取仍然比两者加起来更受欢迎。

探索仪表盘

也许是遗留架构迫使人们构建内部提取工具。或者第三方工具的成本超过了收益。

也可能只是第三方提取工具仍在发展中,因此也许我们会在来年看到向它们转变。

但仍然有相当多的公司选择构建自己的提取管道。我们在数据编目中也看到了类似的趋势(更多内容见下文)。

您现在可以保留那些方便的 Python 脚本。内部数据提取似乎注定要作为商业产品的补充而存在,而不是完全被第三方提取工具所取代。

Mustard Ellipsis
探索仪表盘

复制到剪贴板 数据编目的未来……不是数据编目?

40% 的数据目录用户表示他们使用内部工具来托管它。而且没有任何一款商业工具能接近这个选项。

毫不奇怪,绝大多数人表示他们根本不使用数据目录。

来自小型公司的 80% 受访者表示,他们要么不使用数据目录,要么不知道是否使用数据目录。来自中型公司的 75% 受访者也报告了同样的情况。

虽然来自大型公司的 77% 受访者表示他们确实使用数据目录,但数据编目却有点名声不佳。

在现代数据堆栈中在多个工具之间切换,并在其之上添加数据目录的痛苦是一个公认的痛点。如果数据编目要保持相关性,则需要一些独创性。

现在感觉是现有数据工具为客户提供组织数据资产的新方法的时候了;将需要数据编目的替代方案。

Gray Glider

复制到剪贴板 Postgres 是最令人满意的数据库……如果您在分布式团队中,则更是如此

虽然 MySQL 是业内使用最广泛的数据库之一,但在三种最常用的分析数据库中,MySQL 的角色满意度得分最低。

探索仪表盘 您可能需要重新考虑您的数据库……以及您的重返办公室政策。那些对自己的角色最满意的人表示,他们在分布式团队环境中使用 PostgreSQL。

如果您正在使用 MySQL 并且有不同的意见要分享,我们洗耳恭听。 至于我们关于 MySQL 得分较低的理论:它是一个久经考验的数据库,但也许 MySQL 正在维持较旧(不太有趣)的代码库的运行。

Postgres 用户还表示,与其他分析数据库的用户相比,他们的公司更倾向于自助服务,因此如果您是一个全球性的、完全远程的团队,这可能是一个明智的选择。

探索仪表盘
Orange Star

复制到剪贴板 分布式团队的自助服务得分较高,但有一个角色的得分与其他角色不同

在分布式团队工作的人们表示,他们的公司比本地化团队更倾向于自助服务。分布式公司需要自助服务工具和流程来实现异步工作,并让员工在自己的时间进行查询。这非常简单明了。

探索仪表盘

但从围绕员工满意度的结果来看,有一个很大的注意事项。对自助服务的看法因角色而异。

从事数据角色的人认为他们公司提供的自助服务不如 C 级和工程部门的同事。 探索仪表盘

C 级管理人员和工程师认为他们的公司更倾向于自助服务,这并不奇怪。他们是使用自助服务工具的人。

这些结果可能意味着自助服务正在按预期进行。这也可能意味着数据分析人员认为他们公司提供的自助服务不如他们期望的那样。这里没有太大的差异,但最好密切关注。

好消息是我们可以在情况发生变化时通知您!填写下面的调查问卷以帮助我们弄清楚。

数据堆栈调查的未来

数据堆栈调查仍在进行中。您现在可以通过表格提交您的答案。当新的、有趣的发现出现时,我们将创建后续帖子。

仪表盘和本报告是静态数据,供您使用。如果您确实将数据用于一些很酷的事情,请务必与我们分享!