Bin
亦称
分箱
分桶
什么是箱(bin)?
箱(bin)是用于在图表中对值进行分组的连续值的单个范围。数据分箱有助于简化数据可视化,以便人们可以了解其数据的分布并轻松发现异常值。您最常在直方图中看到箱,但它们并非直方图独有,并且对于其他可视化(如折线图或饼图)也可能很有用。
如果您的数据集中的度量包含许多唯一值,则在图表上绘制每个单独的数据点可能会显得杂乱,并且可能不是数据的最佳表示形式。当您对数据进行分箱时,这些值将被分组为大小相等的间隔(如 1-10、11-20、21-30 等),并且生成的图表将显示每个箱中值的计数。
数据分箱示例
图 1 显示了 Metabase 示例数据库中产品的价格,以直方图的形式显示。

这里的箱是价格范围;我们可以看到,价格在 37.50 美元至 50.00 美元之间的产品比其他任何价格范围都多。
Metabase 自动对这些值进行了分箱,但我们也可以选择我们想要的箱数(10 个、50 个或 100 个)来进一步调整此图表。如果您的箱大小太小,您将拥有太多箱,并且最终可能会得到难以解释的可视化效果。但是,太少的箱会给您数据的分布带来不完整或过度压缩的画面,因此请尝试并找出最适合您数据的方法。