元数据
什么是元数据?
元数据 是描述数据以使其更容易查找、操作和使用的信息。
元数据示例
考虑您计算机上的一个文件,例如数字图像或文本文档。在许多其他属性中,该文件具有名称、文件类型、扩展名、大小以及创建、最后打开和最后修改的时间戳。这些都是元数据——这些属性都不是文件本身,但它们确实告诉您关于文件的重要信息。理解和跟踪这些元数据告诉您和您的计算机如何对该文件进行排序和处理,例如指示您的计算机在打开该文件时使用什么软件。
元数据存在于分析世界之外,几乎无处不在。它在广泛的行业中都很重要,从摄影到图书馆到广播电视,因为任何处理或生成数据的组织都需要能够查找和组织它。元数据有时是可读的(如书籍的标题或数据库中的字段名称),但也可以是机器可读的,如XML或JSON文件。
关系数据库和数据仓库中的元数据
在关系数据库中,元数据包括构成数据库模式的所有信息,如下所示
- 表名
- 字段名
- 实体键
- 外键
- 数据类型
- 视图
- 完整性约束
然而,数据库元数据不仅仅是其模式。用户信息、业务定义、表和字段描述、数据库大小和存储信息都是重要的元数据组成部分。根据您的数据库配置,您可能将一些元数据存储在数据库本身中(如表和字段名称),或存储在包含数据库全部元数据的单独文件或文件集中。这被称为数据字典。
在数据仓库中,元数据的作用类似于索引或目录,定义了数据仓库中存储的所有对象,以及各种ETL作业的信息,这些作业处理数据以便对需要的人来说是有用的。
ETL的元数据可能包括作业名称、目的、运行时间和频率、作业使用的数据以及数据最终存放的位置。如果该作业通过大量有用的元数据进行了适当注释,那么您或同事更容易理解作业的具体内容和原因。
在Metabase中使用元数据
元数据在Metabase中扮演着重要角色。例如,指定列的字段类型(本身也是一种元数据)可以让Metabase了解该字段的实际含义,因此Metabase可以知道如何格式化该字段或向您展示哪种类型的可视化。
模型也使用了元数据。在创建模型时对列进行描述注释可以在帮助人们更好地理解您的数据方面发挥很大作用。图1显示了在模型中悬停于列上时这些描述如何显示
最后,您可以在Metabase的数据浏览器的数据参考部分中查看表元数据。图2显示了示例数据库的产品
表的显示方式。如图所示,此视图提供了诸如列名、描述、字段类型和数据类型等信息。