我教了成千上万的学生关于数据的知识,如果他们能记住一个概念,那就是像平均值和中位数这样的汇总统计可以压缩信息。汇总统计试图用单个数字来表示一组数字。
问题是,作为一名分析师,你是否对这种压缩感到舒服?你是否觉得这个统计准确地代表了基本数据?
让我们看看两组数字,情景1和情景2,显示用户每天使用功能的频率
两个情景的平均值都是3。
所以我们应该说,在两个情景中,用户平均每天使用该功能3次吗?
对于第一个情景,3感觉是对数据的公平压缩,因为数据分布相对正常。但作为分析师,如果你被问到更深入的问题关于用户行为,了解最大值和最小值仍然很好。
对于第二个情景,“3”感觉是完全不准确的数据压缩,因为数据的分布高度倾斜,你可能认为11是异常值应该排除。如果我们排除11,1将是情景2一个非常合适的汇总统计,因为所有基本数字都是1。如果我们不排除11,在呈现3作为汇总统计时,我们需要提供更多的背景,因为我们实际上只有一个用户(用户5)经常使用该功能,其他用户不经常使用。
对于如此小的数据集,例如本例所示,我们可以查看数据本身以判断汇总统计的公平性,但当你要压缩的数据量很大时,最好查看分布以确定统计是否公平地代表数据。
每次你报告一个统计时,请查看基本数据或分布,以判断你的数据压缩是否合理。