不久前,我曾在一家快速增长的创业公司工作,该公司运营非常复杂。我们每月都在招聘新的数据分析师,我们的运营团队不断需要越来越多的仪表板,整个事情变得难以管理。对此的典型方法是增加招聘,以提高团队的能力。
虽然这在团队的早期阶段是正确的,但很快,提高每位分析师的效率比仅仅尝试增加员工人数更有益。当我们与一家领先的数据目录提供商公司合作,为其工具设置我们的系统时,我亲身看到了这一点。
什么是数据目录?
数据目录是相对较新的工具类别,但对于团队的成长绝对至关重要。一组典型功能包括
- 表和列的元数据;
- 将数据资产的所有权分配给团队成员;
- 显示最常用的表和列;
- 将数据资产标记为已验证或未验证;
- 跟踪每个资产的沿袭(即:它源自哪些资产);
数据目录的好处
在我们拥有数据目录之前,我们花费了大量时间在 Slack 上发布问题,例如“是否有人知道表 Y 中的列 X 是否可靠?”、“是否有人知道表 Z 的所有者是谁?”等等。
消除花费数小时搜索此类问题答案的需求,正是您需要为您的团队投资良好文档的原因。它不仅节省了您的时间,还避免了因使用错误数据而造成的许多错误。建立这样的系统需要前期投入,但从长远来看,它总是会得到回报。
构建数据目录的工具
幸运的是,这类工具发展非常迅速。如果您的财务受限但有可用的工程资源,那么 Lyft 开发的 Amundsen 等开源解决方案是一个不错的选择。如果您愿意为了减少工作量而牺牲一些成本,Stemma 现在也提供 Amundsen 的云托管版本,并提供他们正在不断构建的其他功能。其他参与者包括 Alation、Data World、DataGalaxy 等等。
但是,嘿,你甚至不一定需要额外的工具来建立一些基本但非常实用的东西。首先,您可以简单地打开一个电子表格,为每个重要的表创建一个工作表,为该表的每一列创建一个行,并添加关于它们的重要信息(例如所有者是谁),并使用颜色来指定已验证与未验证的列。即使您最终获得了数据目录,这项工作也将为您节省设置时间。
最终,重点是:你现在就需要开始编写文档,因为它保证会对你有所回报。