什么是数据目录?
在我加入 Meisterlabs 担任数据工程师后,我很快意识到让新成员加入数据团队有多么困难。有太多的表、定义或系统在运行,并且很难跟踪所有这些。
这就是数据目录的用武之地。它是什么?它是公司数据资产的有序清单,可让您索引、理解和依赖您管理的数据资产。
拥有数据目录非常重要,但许多公司没有。
我喜欢将公司拥有数据目录比作人体锻炼。很多人都知道锻炼对身体有益,但由于没有立竿见影的效果,很难掌握你愿意付出多少努力来开始锻炼。数据目录也是如此。如果你不知道你从中提取什么,你就不会进行投资。
入门非常困难,而且你等待的时间越长,就越困难,因为你有更多的数据需要记录。
最后但并非最不重要的一点是,没有某些工具的主要问题是,在你拥有它之前,你不知道你错过了什么。想象一下印刷机出现之前的时代,你怎么知道其他人是如何做你想学的事情的?此外,你将如何与他人分享相同的信息?
现在我们生活在数字信息存在的时代,我们无法想象没有它的生活。
拥有数据目录有什么好处?
在发现并实施数据目录后,我们设法看到了该工具提供的所有好处。
下面你可以找到数据目录为我们提供的好处列表
可发现性: 当您雇用数据团队的新成员(或当您组织中的另一个团队需要有关数据的一些信息时),向他们提供像搜索引擎这样的工具以指向正确的数据源要容易得多。
数据治理: 您可以定义组织中的特定人员可以管理数据集中的哪些表、视图,甚至特定列。请注意,数据访问的实际配置需要在数据源本身中完成。
可靠性: 当组织中的人员更容易访问和理解数据时,就会产生透明度。而透明度建立信任。
新鲜度: 让利益相关者及时了解情况,并让他们知道您的数据是否符合 SLA。
关系: 一些数据目录允许您创建数据的沿袭视图。它们还将您的数据可视化工具与底层 SQL 请求连接起来,因此您可以看到您的数据被连接和操作的频率。
目的: 通过创建“数据字典”,您可以让人快速了解最初创建某些数据集的原因以及它们现在的用途。
合规性: 如果您知道哪些表具有隐私敏感信息,则更容易帮助利益相关者(如产品团队或法律部门)保证数据符合 RGPD 等当地法规。
如何选择数据目录?
如果您和您的公司已经到了了解数据目录好处的地步,那么重要的是选择正确的标准,以便从现有的多种选项中选择一个。
以下是我们 Meister 使用的标准
定价: 您为哪些付费?这与您的数据结构高度相关。在开源替代方案的情况下,您需要预测内部资源(工程师/时间)来设置和维护基础设施。
必备功能: 在我们的案例中,沿袭或数据新鲜度是数据目录的必备功能。
投资回报率: 一个被忽视的项目是投资回报率。我建议您尽快问自己这个问题。这将定义您愿意投入选择的时间和金钱的数量。您花费多少时间来查找数据目录拥有的信息?这非常重要,但又很难估计。例如,当您入职新的数据分析师时,他/她需要花费多少时间来了解公司的数据资产?另一个例子是公司两个部门对“客户”或“每月收入”没有相同定义所造成的后果。
互操作性: 另一个要素是数据目录与您公司使用的不同工具的互连程度如何。人们讨厌在许多不同的系统中编写相同的信息。您的数据目录应与您的其他工具通信。例如,如果您使用 Metabase,您的数据目录应该能够恢复查询和仪表盘的使用情况。
用户体验: 操作数据目录有多容易?
下一步是什么?
即使在你做出选择并开始使用数据目录之后,你也需要知道该工具的好处与你使用它所花费的时间相关。重要的是你接受它并进行相应的计划。