数据文档的目的是很简单:帮助用户找到正确的数据,了解如何使用它,并相信它是准确的。
但这并不意味着您需要记录所有内容。在许多情况下,经过良好建模的数据本身就具有自明性。
正如“好的代码能自我说明”一样,好的数据建模做了很多繁重的工作。如果您的表和列具有富有表现力、一致的名称,它们就会更容易理解。
一个名为“dbo”的数据库是模糊且令人困惑的。但“sales_prod”或“finance_reporting”能为用户提供即时上下文——尤其是当周围还有“sales_dev”或“marketing_staging”时。
因此,记录数据始于良好的命名——但并未止步于此。
使用数据库层级从上到下记录数据
利用您数据系统的结构来创建自顶向下的文档。这意味着从
- 系统
- 数据库
- Schema (数据库结构)
- 表格
- 列

开始组织您的文档。这种层级结构可以帮助用户看到全局,探索相关数据,并理解不同部分是如何连接的。当您以这种方式记录数据时,人们可以更轻松地浏览数据领域,而无需四处询问。
记录数据时要关注什么
您不必大费周章。以下是如何有效记录数据而不感到不知所措
✅ 完全记录前 3 个层级:系统、数据库和架构
✅ 专注于您的堆栈中排名前 10% 的常用表。如果您使用 Metabase,请查看 使用情况分析,以您实际探索和查询的内容为优先。
✅ 制定规则:新创建的表、视图或模型必须包含基本文档
💡 专业提示:如果一个列不值得记录,它可能就不属于该表。
对于核心报告表和广泛使用的数据产品,要严谨。这些应包含详细的列级文档和对每个字段含义的清晰描述。
命名约定和词汇表很重要
有时,记录数据最困难的部分是选择正确的词语。是客户、账户、公司、用户还是站点?LTV、ARR 或 CAC 等首字母缩略词对每个人都清楚吗?
为减少混淆,您的数据文档工具应支持词汇表——一个定义关键业务术语的集中位置。然后,您可以在文档中一致地引用这些定义。
改进数据文档的快速技巧
- 使用富有表现力且一致的名称;
- 自顶向下记录,并优先记录最常用的;
- 一句话通常就足够了;
- 将文档记录作为开发过程的一部分;
- 在业务词汇表中#使用定义;