数据和商业智能术语表

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
V
W
X

Bin

也称为

分箱

分桶

什么是分箱?

一个 分箱 是一组连续的值范围,用于在图表中分组值。分箱数据有助于简化数据可视化,以便人们可以了解数据的分布并轻松发现异常值。您通常在 直方图 中看到分箱的使用,但它们并不仅限于直方图,也可以与其他可视化,如 折线图 或饼图一起使用。

如果您的数据集中的度量包含许多唯一值,在图表上绘制每个单独的数据点可能会显得杂乱无章,可能不是您数据的最佳表示。当您对这些数据进行分箱时,这些值将被分组到等大小的区间中(如 1-10、11-20、21-30 等),并且您的结果图表将显示每个分箱内的值计数。

数据分箱示例

图 1 展示了 Metabase 的 示例数据库 中产品的价格,以直方图的形式显示。

<em>Fig. 1</em>. The prices of products in our <strong>Sample Database</strong>, shown as a histogram. Metabase automatically generates bins based on how the data is distributed.
图 1. 我们 示例数据库 中产品的价格,以直方图形式展示。Metabase 自动根据数据的分布生成分箱。

这里的分箱是价格范围;我们可以看到,我们拥有的 $37.50-50.00 价格范围内的产品比其他任何价格范围都多。

Metabase 自动对这些值进行了分箱,但我们也可以选择想要的分箱数量(10、50或100),以进一步调整此图表。如果您的分箱大小太小,您将拥有太多分箱,并且可能得到一个难以解释的可视化。然而,分箱太少将给出一个不完整或过度压缩的数据分布图,所以请尝试不同的设置,找出最适合您数据的设置。

相关术语