2023 年 Metabase 社区数据堆栈报告

数据工具和自助分析的现状一览

今年早些时候,我们通过社交渠道和电子邮件发布了一项匿名数据堆栈调查,以了解更多关于数据工具及其对不同公司规模和角色的影响。

这项调查对所有人开放,但在我们收到的 189 份回复中,89% 是 Metabase 客户。

虽然由于样本量小,我们无法断言我们的见解在统计学上能代表所有数据人员,但结果中有一些您可能想知道的事情,例如某个特定的数据库可能对您的团队士气更不利... 请继续阅读以了解更多信息。

Blue Star

复制到剪贴板 大型公司更有可能选择开源数据工具

探索仪表盘

75% 的受访者表示他们正在使用开源生产数据库,因此 Postgres 和 MySQL 在整个调查中被提及最多也就不足为奇了。但有一个意外:大型公司选择开源生产数据库的频率高于其他类型。

大型公司表示,开源而非性能、可伸缩性和安全性是其选择生产数据库的决定性因素。

与趋势一致,75% 的大型公司受访者表示 dbt 目前是其数据堆栈的一部分。开源也是他们选择数据建模工具的前三大原因之一。

开源在调查结果的各个方面都得到了体现,考虑到我们的社区不仅支持 BI 的开源工具,而且支持所有开源工具,这并不令人惊讶。

Beige S

复制到剪贴板 客户数据比以往任何时候都更有价值。社交媒体数据呢?没那么重要了。

Salesforce 是排名第一的上游数据源。Stripe 和 Slack 也位列前五。我们很好奇您正在摄取哪些 Slack 数据...

说到前五名,这些工具都包含相当多的个人身份信息,因此我们惊讶地发现 92% 的受访者并未将安全性和合规性作为他们选择数据存储选项的首要原因。(这需要进行一次全新的调查...)

一点也不令人震惊的是:许多人不再从一个社交媒体平台摄取数据了。

每月 42,000 美元的企业 API 成本可能是最后一根稻草。曾用名 Twitter (RIP) 的 X,勉强进入了我们上游数据源的前十名。
探索仪表盘
Pink Hourglass

复制到剪贴板 即便市场上有这么多选择,大多数公司仍然选择内部数据摄取

Airbyte 和 Fivetran 位列前三,但内部数据摄取仍比两者总和更受欢迎。

探索仪表盘

也许是遗留架构迫使人们构建内部摄取工具。或者第三方工具的成本超过了其收益。

也可能仅仅是第三方摄取工具仍在发展中,所以我们或许会在来年看到向其转移的趋势。

但仍有相当多的公司选择构建自己的摄取管道。我们在数据编目方面也看到了类似的趋势(下文有更多介绍)。

您现在可以保留那些 Python 脚本。内部数据摄取似乎将继续作为商业产品的补充,而不是完全被第三方摄取工具取代。

Mustard Ellipsis
探索仪表盘

复制到剪贴板 数据目录的未来……不是数据目录?

40% 使用数据目录的人表示他们使用内部工具来托管它。而且没有任何商业工具能接近这个选项。

不出所料,绝大多数人表示他们根本不使用数据目录。

小型公司 80% 的受访者表示他们不使用数据目录,或者不知道自己是否使用。中型公司 75% 的受访者也报告了同样的情况。

虽然大型公司 77% 的受访者表示他们确实使用数据目录,但数据目录的名声有点不好。

在现代数据堆栈中切换多个工具的痛苦,以及在其之上添加数据目录,是一个显著的痛点。数据编目若要保持相关性,需要一些独创性。

现在是现有数据工具为客户提供组织其数据资产新方式的时候了;这将需要数据编目的替代方案。

Gray Glider

复制到剪贴板 Postgres 是最令人满意的数据库……如果您是分布式团队,则更是如此

尽管 MySQL 是业界使用最广泛的数据库之一,但在三种最常用的分析数据库中,其角色满意度得分最低。

探索仪表盘 您可能要重新考虑您的数据库……以及您的返工政策。那些对自己的角色最满意的人表示他们在分布式团队环境中使用 PostgreSQL。

如果您正在使用 MySQL 并有不同意见,我们洗耳恭听。 至于我们关于 MySQL 得分较低的理论:它是一个久经考验的数据库,但也许 MySQL 正在维持较旧(较不有趣)的代码库的运行。

Postgres 用户还表示,他们的公司比其他分析数据库的用户更倾向于自助服务,因此如果您是一个全球性的、完全远程的团队,这可能是一个明智的选择。

探索仪表盘
Orange Star

复制到剪贴板 分布式团队的自助服务得分较高,但有一个角色的得分与其他角色不同

在分布式团队工作的人员表示,他们的公司比本地化团队更倾向于自助服务。分布式公司需要自助服务工具和流程,以便异步工作并让员工在自己的时间查询数据。这非常直接。

探索仪表盘

但根据员工满意度调查结果,有一个重要的注意事项。自助服务的认知因角色而异。

数据岗位的员工认为他们的公司自助服务程度低于他们的 C 级和工程岗位同行。 探索仪表盘

C 级和工程人员认为他们的公司自助服务程度更高,这并不奇怪。他们是使用自助服务工具的人。

这些结果可能意味着自助服务达到了预期目的。也可能意味着数据分析人员认为他们的公司不如他们希望的那么自助服务。这里没有太大的差异,但值得关注。

好消息是,如果情况发生变化,我们会通知您!请填写下方调查,帮助我们找出答案。

数据堆栈调查的未来

数据堆栈调查仍在进行中。您现在可以通过表格提交您的答案。我们将根据新的、有趣的发现创建后续帖子。

仪表盘和本报告是您使用的静态数据。如果您将数据用于任何有趣的事情,请务必与我们分享!

© . All rights reserved.