我教过数千名学生关于数据方面的知识,如果说有一个概念我希望他们能记住,那就是平均值和中位数等汇总统计数据会压缩信息。汇总统计数据会取一组数字,并试图用一个单一的数字来代表所有这些数字。
问题是,作为一名分析师,你对这种压缩感到满意吗?你觉得这个统计数据准确地代表了底层数据吗?
让我们看两组数字,场景 1 和场景 2,它们显示了用户每天使用某项功能的频率
两种场景的平均值都是 3。
那么我们是否应该说,在两种场景中,用户平均每天使用该功能 3 次呢?
对于第一个场景,3 感觉是对数据的一次合理压缩,因为数据大致呈正态分布。但作为分析师,如果有人问及用户行为的更深入问题,了解最大值和最小值仍然是好的。
对于第二个场景,“3”感觉是完全不准确的压缩,因为数据的分布高度倾斜,你可能会认为 11 是一个应该被排除的异常值。如果我们排除 11,那么 1 将是场景 2 中一个非常合适的汇总统计数据,因为所有底层数字都是 1。如果我们不排除 11,那么在将 3 作为汇总统计数据呈现时,我们需要提供更多上下文,因为我们实际上有一个用户(用户 5)使用该功能非常频繁,而其余用户则不经常使用。
对于像本例这样的小数据集,我们可以直接查看数据本身来判断汇总统计数据的公平性,但当您尝试压缩的数据量很大时,最好查看分布情况,以确定统计数据是否公平地代表了数据。
每次报告统计数据时,请务必查看底层数据或其分布情况,以判断您对数据的压缩是否有意义。