我曾向数千名学生传授过数据知识,如果他们只记住了其中一个概念,那就是平均值和中位数等汇总统计数据会压缩信息。汇总统计数据会采用一组数字,并试图用一个数字来代表所有这些数字。
问题是,作为一名分析师,您对这种压缩感到满意吗?您是否觉得该统计数据准确地代表了底层数据?
我们来看两组数字,场景 1 和场景 2,显示用户每天使用某项功能的频率。

两个场景的平均值均为 3。
那么,我们应该说,在两个场景中,用户平均每天使用该功能的次数为 3 次吗?
对于第一个场景,3 似乎是对数据的合理压缩,因为数据大致呈正态分布。然而,作为一名分析师,如果您被问到更深入的用户行为问题,了解最大值和最小值仍然是件好事。
对于第二个场景,“3”感觉完全不准确,因为数据的分布高度偏斜,您可能会认为 11 是一个应该排除的异常值。如果我们排除了 11,那么 1 将是场景 2 的一个非常合适的汇总统计数据,因为所有底层数字都是 1。如果我们不排除 11,那么在将 3 作为汇总统计数据进行展示时,我们就需要提供更多上下文,因为实际上有一个用户(用户 5)使用该功能很多,而其他人则不经常使用。
对于像本例这样的小型数据集,我们可以查看数据本身来判断汇总统计数据的公平性,但当您试图压缩的数据量很大时,最好查看分布情况,以确定统计数据是否公平地代表了数据。
每次报告统计数据时,请查看底层数据或分布情况,以判断您对数据的压缩是否合理。