尺寸和测量
如何在查询中使用定量和定性字段。
正如我们在概述中提到的,一个典型的数据库由表组成,表由行和列组成。根据它们的数据类型,这些列(或字段)包含定性或定量信息。《维度》和《度量》是帮助我们区分字段中存储的值的类型,并反过来决定我们可以如何使用这些字段的概念。
仅以表格形式查看您的数据只能走这么远;在某个时候,您将需要运行查询或执行操作,使您的数据更有用,例如显示关于某些字段存储的信息的模式。这就是度量值和维度发挥作用的地方。
维度:您的数据的谁、什么、哪里和何时
包含定性信息的字段是维度。这些是描述性属性,如产品类别、客户地址或国家。维度可以包含数字字符(如字母数字的客户ID),但它们不是数字的值(例如,在列中添加所有ID号码是没有意义的)。
日期字段也是维度,因为计算所有订单年份的总和可能没有帮助。相反,您可能会根据日期进行分组。日期字段是维度,但持续时间字段不是;您可以使用持续时间字段进行有价值的计算,例如计算一个人在您网站上花费的平均时间(以秒为单位)。
可以这样想:如果您无法(或不会)计算字段,那么它就是维度。数字本身只能讲述故事的一部分,维度描述并添加上下文。
让我们看看Metabase的示例数据库。如果我们选择“浏览数据”,然后是Products
表,我们会以表格形式看到有关我们产品的信息。这个表包含八个列。
要确定这些字段中哪些是维度,考虑哪些提供了关于我们产品的描述性信息。我们会立即注意到标题、类别和供应商是定性的,因为它们用文字告诉我们有关我们产品的信息。虽然它们包含数字,但ID、Ean和创建于也是维度,因为这些数字不是您想要计算的。
度量:您可以计算的数值字段
度量是量化——如订单小计、购买物品数量或特定页面上花费的时间。因此,度量是可计算的。比如说,您有一个度量,购买物品的数量:您可以计算平均订购数量、按数量降序排序、汇总所有数量等。
让我们再次查看Products
表,以确定哪些字段是度量。这是一个简单的问题,因为我们已经确定其中六个是维度。剩下的就是价格和评分,这在商业上是有意义的,因为计算这些字段可能对我们的业务有价值。例如,我们可以计算客户对我们产品的平均评分。
到目前为止,我们已经检查了表中的每个字段,并确定了它们是维度还是度量
维度
- ID
- Ean
- 标题
- 类别
- 供应商
- 创建于
度量
- 价格
- 评分
在Metabase中使用度量值和维度
在Metabase中提问时,您可以选择汇总数据、过滤数据或两者都做。
按指标和分组汇总
“汇总”函数允许我们根据一些特定参数对我们的数据进行封装,通常包括一个度量和一个维度。我们可能想查看产品的平均价格,按类别进行拆分。如上所述,“价格”字段是我们的度量,而“类别”是一个维度。
简而言之:如果您按特定指标进行汇总,您选择的字段就是度量。如果您按组进行汇总,那么该字段通常是维度。在普遍意义上,“指标”是指对给定度量所执行的定量操作的类型。它们是这些汇总的“如何”,无论是平均值、标准差还是不同值的数量。
Metabase中的指标是指您和您的团队希望反复使用的已保存的计算数字。管理员可以创建和编辑指标,这样您就不必每次需要查询收入时都重新创建一个计算值。
尽管分组通常涉及维度字段,但您也可以按度量进行分组。如果您这样做,Metabase会自动将这些数值分成组,使分组更有用。我们已经根据价格(我们的度量)对产品
表进行了分组,Metabase为我们将这些价格分组。
过滤度量项和维度
在Metabase中,您可以根据度量或维度来过滤您的数据。过滤器根据特定字段限制查询的结果。我们决定过滤产品
表,要求Metabase显示除Gizmo类别以外的产品,价格超过50美元的产品。在这个查询中,我们根据维度和度量进行了过滤。
在Metabase中,分段是由管理员创建并保存的命名过滤器,可以在组织内的所有Metabase用户中重复使用和引用。分段鼓励团队之间数据分析的标准化和一致性;例如,作为管理员,您可以创建一个分段,正式定义一组客户或产品。
下一节:事实表的分析工程
如何根据实际分析用例对事实表进行建模。