有一段时间,我在一家增长非常快的初创公司工作,运营非常复杂。我们每个月都在招聘新的数据分析人员,我们的运营团队需要越来越多的仪表盘,整个事情变得难以管理。典型的做法是增加招聘以增加团队的容量。
虽然这在团队早期是正确的,但很快就会变得更有益于提高每个分析师的效率,而不是简单地增加人员。当我与一家领先的数据目录提供商公司合作设置我们的系统时,我亲眼看到了这一点。
什么是数据目录?
数据目录是一类相对较新的工具,但对于团队的成长至关重要。典型功能包括
- 表格和列的元数据;
- 将数据资产的所有权分配给团队成员;
- 显示最常用的表格和列;
- 标记数据资产为已验证或未验证;
- 跟踪每个资产的历史(即:它是从哪些资产派生出来的);
数据目录的好处
在拥有数据目录之前,我们花了很多时间在 Slack 上发布像 “有人知道表格 Y 中的列 X 是否可靠吗?”、“有人知道表 Z 的所有者是谁吗?” 这样的问题。
消除花费数小时搜索这些问题的答案的需求正是为什么投资于团队的优质文档如此重要的原因。这不仅节省了你的时间,还避免了由于使用错误数据而犯下的许多错误。设置这样的系统需要 upfront 的努力,但从长远来看,它总是值得的。
用于构建数据目录的工具
幸运的是,这类工具正在迅速增长。如果你资金有限,但拥有工程资源,那么Lyft开发的开源解决方案Amundsen是一个很好的选择。如果你愿意为了减少工作量而牺牲一些成本,Stemma现在也提供Amundsen的云托管版本,并继续为其添加更多功能。其他参与者包括Alation、Data World、DataGalaxy等。
但嘿,你甚至不需要额外的工具来建立一个基本但非常有用的东西。首先,你可以简单地打开一个电子表格,为每个重要的表创建一个工作表,为每个表的列创建一行,并添加有关它们的重要信息(如所有者是谁),并使用颜色来区分已验证和未验证的列。即使你以后得到数据目录,这项工作也会在设置时节省你的时间。
最终,关键是:你需要现在开始编写文档,因为这肯定会为你带来回报。