什么是分箱?
也称为
分箱
分组
分箱是用于在图表中对值进行分组的单个连续值范围。分箱数据有助于简化数据可视化,以便人们能够了解数据分布并轻松发现异常值。您最常在直方图中看到分箱,但它们并非直方图独有,也可用于其他可视化图表,如折线图或饼图。
如果数据集中的度量包含许多唯一值,则在图表上绘制每个单独的数据点可能会显得杂乱,并且可能无法最佳地表示您的数据。当您对数据进行分箱时,这些值将分组到等大小的区间(例如 1-10、11-20、21-30 等),生成的图表将显示每个分箱内的值计数。
数据分箱示例
图 1 显示了 Metabase 示例数据库中产品的价格,以直方图形式显示。
这里的箱是价格范围;我们可以看到在 37.50-50.00 美元的价格范围内,我们拥有的产品比任何其他价格范围都多。
Metabase 自动对这些值进行了分箱,但我们也可以选择所需的箱数(10、50 或 100)来进一步调整此图表。如果您的箱大小太小,您将有太多的箱,并且可能会得到一个难以解释的可视化效果。然而,太少的箱会给您一个不完整或过度压缩的数据分布图,因此请尝试并找出最适合您数据的方法。