什么是数据目录?
在我加入Meisterlabs成为数据工程师后,我很快意识到将新成员纳入数据团队是多么困难。有如此多的表、定义或运行中的系统,很难跟踪所有这些。
这就是数据目录发挥作用的地方。它是什么?它是公司数据资产的组织化清单,允许您索引、理解和依赖您所管理的数据资产。
拥有数据目录非常重要,但许多公司却没有。
我喜欢将公司拥有数据目录比作给人体做锻炼。许多人知道锻炼对健康有益,但没有即时效果,很难理解你愿意投入多少努力开始这样做。数据目录也是如此。如果你不知道从哪里提取,你就不会进行投资。
开始做很难,而且你等得越久,就越难,因为你需要记录的数据越多。
最后但同样重要的是,不处理某些工具的主要问题是你不知道自己错过了什么,直到拥有它。想象一下印刷术发明之前,你是如何知道别人如何做你想要学习的事情的?此外,你是如何与他人分享相同信息的?
现在我们生活在一个数字信息存在的时代,我们无法想象没有它的生活。
拥有数据目录有什么好处?
在发现并实施数据目录后,我们已经看到了这个工具能提供的所有好处。
以下是你将找到数据目录为我们提供的益处列表
可发现性:当你雇佣你数据团队的新成员(或者当组织中的另一个团队需要一些关于数据的信息时),提供一个指向正确数据源的搜索引擎等工具会容易得多。
数据治理:你可以定义哪些表、视图,甚至你数据集中特定的列可以由组织中的特定人员管理。请注意,数据访问的实际配置需要在数据源本身完成。
可靠性:当数据更容易被组织中的人员访问和理解时,它创造了透明度。而透明度会建立信任。
新鲜度:让利益相关者保持最新状态,并让他们知道你的数据是否符合SLA。
关系:某些数据目录允许你创建数据血缘视图。它们还将你的数据可视化工具与底层的SQL请求连接起来,这样你就可以看到你的数据被连接和操作有多频繁。
目的:通过创建“数据字典”,你允许人们快速了解某些数据集最初为什么会被创建,以及它们现在是如何被使用的。
合规性:如果你知道哪些表包含隐私敏感信息,那么帮助利益相关者,如产品团队或法律部门,保证数据符合当地法规(如RGPD)就会容易得多。
如何选择数据目录?
如果你和你的公司已经到了知道数据目录好处的时候,那么选择正确的标准来从众多选项中选择一个非常重要。
以下是我们在Meister使用的标准
定价:你在支付什么?这与你的数据结构高度相关。在开源替代方案的情况下,你需要预计内部资源(工程师/时间)来设置和维护基础设施。
必须具备的功能:在我们的情况下,血缘或数据新鲜度是数据目录的必备功能。
投资回报率:一个被忽视的项目是投资回报率。我建议你尽快问自己这个问题。这将确定你愿意投入到选择中的时间和金钱。你在查找数据目录中的信息上花费了多少时间?这非常重要,但很难估计。例如,当你招募新的数据分析师时,他/她需要多少时间来了解公司的数据资产?另一个例子是,公司两个部门对“客户”或“月收入”的定义不一致的后果。
互操作性: 另一个要素是数据目录与公司使用的不同工具之间的互联程度。人们讨厌在不同的系统中重复输入相同的信息。您的数据目录应该能够与您的其他工具进行通信。例如,如果您使用Metabase,您的数据目录应该能够恢复您的查询和仪表板的用法。
用户体验: 操作数据目录有多容易?
接下来是什么?
即使您已经做出了选择并开始使用数据目录,您也需要知道,工具的好处与您使用它的时间相关。您接受这一点并相应地规划是很重要的。