数据文档的目标很简单:帮助用户找到正确的数据,理解如何使用它,并相信它是准确的。
但这并不意味着您需要记录所有内容。在许多情况下,建模良好的数据本身就具有解释性。
就像“好代码自我文档化”一样,好的数据建模承担了大部分繁重的工作。如果您的表和列具有表达性、一致的名称,它们将更容易理解。
一个名为“dbo”的数据库是模糊和令人困惑的。但“sales_prod”或“finance_reporting”会给用户提供即时上下文——尤其是在附近还有“sales_dev”或“marketing_staging”的情况下。
因此,数据文档从良好命名开始——但并非止于此。
利用您的数据库层次结构自上而下地记录数据
利用您的数据系统结构来创建自上而下的文档。这意味着您的文档组织应从以下方面开始:
- 系统
- 数据库
- Schema (数据库结构)
- 表格
- 列
这种层次结构帮助用户了解大局,探索相关数据,并理解不同部分如何连接。当您以这种方式记录数据时,人们可以更轻松地浏览您的数据环境,而无需四处询问。
数据文档的重点
您无需过度。以下是有效记录数据而不感到不知所措的方法:
✅ 完整记录前 3 级:系统、数据库和模式
✅ 重点关注堆栈中使用最多的前 10% 的表。如果您正在使用 Metabase,请查看使用分析以根据人们实际探索和查询的内容进行优先级排序。
✅ 设定规则:新的表、视图或模型在创建时必须包含基本文档
💡 专业提示:如果一个列不值得记录,它可能就不应该存在于表中。
对于核心报告表和广泛使用的数据产品,要严格。这些应包括详细的列级文档和对每个字段含义的清晰描述。
命名约定和词汇表很重要
有时,记录数据最困难的部分是选择正确的词语。它是客户、账户、公司、用户还是站点?LTV、ARR 或 CAC 等缩写对每个人都清楚吗?
为了减少混淆,您的数据文档工具应支持词汇表——一个集中定义关键业务术语的地方。然后,您可以在整个文档中一致地引用这些定义。
改进数据文档的快速提示
- 使用表达性且一致的名称;
- 自上而下地记录最常用的内容;
- 一句话通常就足够了;
- 将文档作为开发过程的一部分;
- 在业务词汇表中使用 #定义;