很久以前,我在一家增长非常快的初创公司工作,当时的运营非常复杂。我们每个月都在招聘新的数据分析师,我们的运营团队需要越来越多的仪表板,整个事情变得难以管理。通常的应对方法是增加招聘以提高团队的容量。
虽然在团队早期确实如此,但很快就会发现,提高每个分析师的效率比单纯增加人力更有益。当我们在某家领先的数据目录提供商公司设置工具以适应我们的系统时,我亲身经历了这一点。
什么是数据目录?
数据目录是一个相对较新的工具类别,但对于团队的成长来说,它们绝对是必不可少的。通常的功能包括:
- 表和列的元数据;
- 将数据资产的所有权分配给团队成员;
- 显示最常用的表和列;
- 将数据资产标记为已验证或未经验证;
- 跟踪每个资产的血缘关系(即:它源自哪些资产);
数据目录的好处
在我们使用数据目录之前,我们在 Slack 上花了大量时间提问,例如“有人知道表 Y 中的列 X 是否可靠吗?”,“有人知道表 Z 的所有者是谁吗?”等等。
消除花费数小时寻找这些问题答案的需要,这正是为您的团队进行良好文档记录如此重要的原因。它不仅节省时间,还可以避免因使用错误数据而造成的许多错误。建立这样的系统需要前期努力,但长远来看,它总是值得的。
用于构建数据目录的工具
幸运的是,这个工具类别正在迅速发展。如果您在财务上受限但有可用的工程资源,那么像 Amundsen 这样的开源解决方案(由 Lyft 开发)是一个不错的选择。如果您愿意用一些成本来换取更少的工作,Stemma 现在也提供了 Amundsen 的云托管版本,并提供他们正在不断构建的附加功能。其他参与者包括 Alation、Data World、DataGalaxy 等等。
但是,您甚至不一定需要额外的工具来建立一些基本但非常有用的东西。首先,您可以简单地打开一个电子表格,为每个重要表创建一个工作表,为该表的每个列添加一行,并添加有关它们的重要信息(例如所有者是谁),并使用颜色来区分已验证和未经验证的列。即使您最终获得了数据目录,这些工作也将节省您的设置时间。
最终,关键是:您需要立即开始进行文档记录,因为这肯定会为您带来回报。