所有文章

2023年5月12日，发表于 数据探索

‧

阅读时间 9 分钟

数据栈的隐藏成本

Metabase 团队

‧ 2023年5月12日，发表于 数据探索

‧ 9 分钟阅读

The hidden costs of the data stack Image

分享本文

已复制到剪贴板

本文列出了维护数据栈所带来的隐藏成本，但不完全详尽。我们所说的数据栈，大致是指一个现代数据栈，它包含以下几个部分：

数据源层（包含生产数据库和第三方数据源）
ETL层，用于将所有源数据整理并导入数据仓库
存储层（数据仓库）
查询层（BI工具）

本文并非旨在制造FUD（恐惧、不确定和疑虑），我们只是想突出一些管理成本的机会。我们不会按任何特定顺序排列这些成本，因为成本的严重程度因组织而异，所以您可以选择解决某些成本，而不解决其他成本。我们将首先介绍问题领域，然后探讨您可以缓解这些成本的不同方法。

隐藏成本

培训和学习曲线

一个常常被忽视的成本是，数据栈中的工具会带来一些培训开销。或者，您需要支付更高薪资来聘用已经精通某些工具或数据栈层级的人员。这种开销对于您的BI工具尤其重要，因为BI工具——它是您数据栈的窗口——将拥有最多用户，而他们的经验水平各不相同。

这里还需要指出的是，学习曲线会带来两种不同类型的成本。第一种成本是培训员工使用这些工具所需的时间，无论是通过*主动*培训（您组织培训课程），还是*自主*培训，您期望员工阅读文档，自行摸索，并通过实践来学习。

第二种成本，采用失败，可能更加隐蔽：如果工具难以学习，人们就不会费心去学习产品以达到高效的程度。或者，更糟的是，他们根本就不会去学习产品，最终您会为一张产生零价值的许可证支付费用。

迭代滞后

团队能够多快地迭代他们的报告？也就是说，您能多快地根据新信息更新报告（无论是新信息来自市场变化，还是产品中新添加的事件）？

具体来说，如果您的数据栈的每一次“构建”（这里我们指的是“构建”您的数据仓库的ETL层）都需要处理整个表，那么在迭代更改此构建时，成本将是相当可观的。

如果，在进行更改后，您收到分析这些数据的人员的反馈，说某些数据看起来不对，或者您需要纳入*更多*数据，那么向模型添加或更改几个列可能会使您在工资和云成本方面付出相当可观的费用。

僵尸ETL作业和报告

人们创建和安排报告。然后他们开始创建新报告，并安排这些新报告。他们不再检查旧报告，但旧报告仍在运行，即使您雇佣了更多的人，他们也创建和安排了更多的报告……问题在于，大多数云数据库提供商按查询收费，因此您最终会为没有利用的分析付费。

“撞车人数”（Bus Factors）

虽然这并非数据团队独有，但数据和团队的孤岛在专家离职时容易出现“知识重置”。

缓存成本

缓存在很大程度上是节省成本的，但有些解决方案要求您将数据缓存到单独的数据库中，然后为此收费。也许这个成本是值得的，也许不。

缺乏可扩展性

BI工具应该能够与您的团队已经熟悉的工具协同工作。例如，您可以使用Metabase来建模数据，然后让人们使用他们喜欢的任何工具来创建报告。如果有些人更喜欢电子表格软件，他们可以从Metabase导出数据并在他们选择的电子表格软件中进行分析，这完全没问题。问题在于工具*强迫*您使用它们。

维护多个信息源

将相同或类似的数据存储在多个地方可能会导致两个问题：第一个问题是您可能要浪费时间来弄清楚可以依赖哪些数据。第二个相关且更具破坏性的问题是，您可能会基于错误或不准确的数据做出决策（错误意味着您应该使用其他更相关的数据，而不准确意味着数据本身不准确或不完整）。

账户等级调整

虽然不那么重要，但仍然很麻烦。因为一些计划提供不同类型的账户，具有不同的能力，价格也不同，所以您必须处理如何分配这些能力。一些创建者许可证可能比基础账户贵10倍，因此您必须花费时间来弄清楚谁获得许可证以及为什么，以及当您的业务发生变化时何时增加或减少许可证数量。

这些分级账户的另一个问题是，因为只有某些账户类型可以创建报告或进行更改，这会确保您的工作流程中存在瓶颈（例如：临时请求队列）。

如何降低数据栈成本

以下是您可以采取的行动，以缓解上述问题，这些行动并非详尽无遗。每项建议都可以帮助减少上述成本中的一项或多项。

使用无需SQL即可查询数据的工具

您肯定想要一个可以使用SQL的工具，但您也需要一种方法让那些不懂SQL的人与数据进行交互。查询构建器越直观，人们就能越快地掌握BI工具，这意味着更多人会实际*使用*您付费的软件。

这些培训不必是正式的。只需将人们聚集在一起，让他们通过制作与他们相关的仪表板来学习。一旦人们掌握了工具，并了解了数据的位置，您就只需要为新员工举办培训。

您不能仅仅培训工具；您必须向人们展示他们可以访问哪些数据以及在哪里可以找到。如果工具足够好，它*应该*有大量的文档和学习资源。但如果人们不知道哪里可以找到与其领域相关的数据，那么这些知识就是浪费。

记录您的数据

说到培训：数据文档是您公司核心基础设施的一部分，但，好吧，祝您成功。您的数据只有在分配人员去完成时才会被记录下来；也就是说，您需要为这项工作创建工单并真正完成。如果您还没有资源来完成这项工作，您可以尝试一些强制性措施，至少可以记录*一些*数据。例如，您可以轮流在团队或公司会议上重点介绍某些模型或报告，这可以激励人们写下这些内容（例如，填写列描述，为仪表板添加上下文等）。记录您的数据可能看起来像一场西西弗斯式的努力，但点滴的积累都有帮助，并且这些文档将在知识共享、入职和决策方面带来回报。

定期清理计划报告

一些工具提供审计工具，可以告诉您计划报告的运行频率。如果您怀疑人们没有查看某些报告，请将其存档，看看是否有人抱怨。即使有人抱怨，也要与他们沟通减少报告运行频率，或者完全关闭报告，让人们只在需要时运行。

简化模型构建、维护和修改

让每个团队都能轻松地整理自己的数据集。这些团队了解数据所描述的领域，因此他们能够很好地识别哪些数据是相关的，哪些是不相关的。

这里有一个有用的区分：基础模型和报告模型。

理想情况下，您有一组基础模型：由数据团队、分析师或工程师整理的、经过清理的、相对原始的数据。这些模型中的数据是干净且正确的，但尚未针对特定领域进行整理。对这些模型的更改应该是 infrequent 的，因为更改它们可能很昂贵。

报告模型是下游模型，团队可以构建和更新这些模型来回答他们需要回答的问题。这些模型轻量且灵活。它们的制作成本更低，并且虽然可以由分析师进行验证，但它们不被分析师所限制。

这部分内容值得写一整篇文章，所以我们今天就到此为止。

避免使用分级账户的工具

如果您想收紧谁能做什么的控制，那应该是权限问题，而不是定价问题。我们（Metabase）采用分级产品模式（免费 vs. Enterprise/Pro）的原因之一是我们认为账户分级模式很*烦人*。Metabase 在这方面并不独特，但总的来说，如果您避开那些迫使您弄清楚您想为哪些人支付更多费用的软件，您就会减少开销。

分散您的数据团队

如果您拥有一个强大的数据团队，可以将分析师嵌入到团队中，以发展领域专业知识，并帮助团队学习如何自己创建报告。理想情况下，数据分析师应该像自己编写报告一样，教授和验证他人的报告。

谨慎升级（或找别人代劳）

仅当您能从新功能中受益时才升级工具。或者（更好的是）通过将升级外包给服务来降低风险并节省时间。如果出现问题，那也不是您的问题。

商业智能

嵌入式分析

文档

学习

数据栈的隐藏成本

Metabase 团队

分享本文

隐藏成本

培训和学习曲线

迭代滞后

僵尸ETL作业和报告

“撞车人数”（Bus Factors）

缓存成本

缺乏可扩展性

维护多个信息源

账户等级调整

如何降低数据栈成本

使用无需SQL即可查询数据的工具

记录您的数据

定期清理计划报告

简化模型构建、维护和修改

避免使用分级账户的工具

分散您的数据团队

谨慎升级（或找别人代劳）

您可能还喜欢

我们 AI 数据集生成器背后的故事

Matthew Hefferon

顶级 GitHub 项目的巴士系数

Metabase 团队

商业智能

嵌入式分析

文档

学习

数据栈的隐藏成本

Metabase 团队

分享本文

隐藏成本

培训和学习曲线

迭代滞后

僵尸ETL作业和报告

“撞车人数”（Bus Factors）

缓存成本

缺乏可扩展性

维护多个信息源

账户等级调整

如何降低数据栈成本

使用无需SQL即可查询数据的工具

举办培训和数据共享

记录您的数据

定期清理计划报告

简化模型构建、维护和修改

避免使用分级账户的工具

分散您的数据团队

谨慎升级（或找别人代劳）

您可能还喜欢

我们 AI 数据集生成器背后的故事

Matthew Hefferon

顶级 GitHub 项目的巴士系数

Metabase 团队

订阅新闻通讯

Metabase 的更新和新闻