不久前,我在一家高速增长的初创公司工作,那里的运营非常复杂。我们每个月都在招聘新的数据分析师,运营团队对仪表盘的需求也越来越多,整个过程变得难以管理。通常的做法是增加招聘以提高团队的能力。
虽然这在团队成立初期是正确的,但很快,提高每个分析师的效率比简单地增加人头更有益。当我们与一家领先的数据目录提供商公司合作,为其系统设置工具时,我亲身经历了这一点。
什么是数据目录?
数据目录是一个相对较新的工具类别,但它们对于团队的成长绝对至关重要。典型的功能集包括:
- 表格和列的元数据;
- 将数据资产的所有权分配给团队成员;
- 展示最常用的表格和列;
- 将数据资产标记为已验证或未验证;
- 跟踪每个资产的沿袭(即:它来源于哪些资产);
数据目录的优势
在我们拥有数据目录之前,我们花了很多时间在 Slack 上提问,比如“**有没有人知道表格 Y 中的列 X 是否可靠?**”、“**有没有人知道表格 Z 的所有者是谁?**”等等。
消除花数小时寻找这些问题答案的需要,正是您需要为团队投资良好文档的重要性所在。这不仅节省了您的时间,还避免了因使用错误数据而导致的许多错误。建立这样的系统需要前期付出努力,但从长远来看,它总是会带来回报。
用于构建数据目录的工具
对我们来说幸运的是,这类工具正在迅速发展。如果您的财务受限但拥有工程资源,那么 Lyft 开发的 Amundsen 等开源解决方案是一个不错的选择。如果您愿意牺牲一些成本以减少工作量,Stemma 现在也提供 Amundsen 的云托管版本,并持续增加附加功能。其他参与者包括 Alation、Data World、DataGalaxy 等等。
但是,嘿,您甚至不一定需要额外的工具就能实现一些基本但非常有用的功能。首先,您可以简单地打开一个电子表格,为每个重要表格创建一个工作表,为该表格的每列创建一个行,并添加有关它们的重要信息(例如所有者是谁),并使用颜色来指定已验证和未验证的列。即使您以后最终会获得一个数据目录,这项工作也会在设置时为您节省时间。
最终,重点是:您现在就需要开始文档工作,因为它一定会给您带来回报。