不久前,我在一家运营极其复杂的快速发展型初创公司工作。我们每月都在招聘新的数据分析师,运营团队对仪表板的需求也越来越多,整个管理变得越来越困难。通常的做法是增加招聘人数以提高团队产能。
虽然在团队早期这是正确的,但很快就会发现,提高每位分析师的效率比简单地增加人手更有益。当我们与一家领先的数据目录提供商合作,为我们的系统设置他们的工具时,我亲身经历了这一点。
什么是数据目录?
数据目录是一个相对较新的工具类别,但它们对于团队的成长绝对至关重要。典型功能集包括:
- 表和列的元数据;
- 将数据资产所有权分配给团队成员;
- 展示最常用的表和列;
- 将数据资产标记为已验证或未验证;
- 跟踪每个资产的来源(即:它源自哪些资产);
数据目录的优势
在我们拥有数据目录之前,我们花费大量时间在 Slack 上提问,比如“有人知道表 Y 中的列 X 可靠吗?”、“有人知道表 Z 的所有者是谁?”等等。
消除花费数小时寻找此类问题答案的需求,正是您需要为团队投资良好文档的原因。它不仅能节省您的时间,还能避免因使用错误数据而导致的许多错误。建立这样一个系统需要前期投入,但从长远来看,它总是会获得回报。
构建数据目录的工具
对我们来说幸运的是,这类工具正在迅速发展。如果您的预算有限但拥有工程资源,那么像 Lyft 开发的 Amundsen 这样的开源解决方案是一个不错的选择。如果您愿意牺牲一些成本以换取更少的工作量,Stemma 现在也提供 Amundsen 的云托管版本,并持续构建更多附加功能。其他参与者包括 Alation、Data World、DataGalaxy 等等。
但是,嘿,您甚至不一定需要额外的工具就能建立一个基础但极其有用的系统。首先,您只需打开一个电子表格,为每个重要的表创建一个工作表,为该表的每一列创建一行,并添加关于它们的重要信息(例如所有者是谁),然后使用颜色来标记已验证和未验证的列。即使您以后最终使用了数据目录,这项工作也会在设置过程中节省您的时间。
最终,重点是:您现在就需要开始着手文档工作,因为这肯定会为您带来回报。