我教过成千上万的学生关于数据的知识,如果我希望他们记住一个概念,那就是平均值和中位数等汇总统计量会压缩信息。汇总统计量采用一组数字,并尝试用一个数字来表示它们。
问题是,作为一名分析师,您对这种压缩感到满意吗?您是否觉得该统计数据准确地代表了底层数据?
让我们看一下两组数字,情景 1 和情景 2,显示用户每天使用某个功能的频率
两种情景的平均值均为 3。
那么我们是否应该说,在两种情景下,用户的平均使用频率都是每天 3 次?
对于第一种情景,3 感觉像是对数据进行合理压缩,因为数据相当 正态分布。但作为一名分析师,如果您被问及有关用户行为的更深入问题,最好还是了解最大值和最小值是多少。
对于第二种情景,“3”感觉是完全不准确的压缩,因为数据的分布高度偏斜,您可能会认为 11 是应该排除的异常值。如果我们排除 11,则 1 将是非常适合情景 2 的汇总统计量,因为所有底层数字均为 1。如果我们不排除 11,那么在将 3 作为汇总统计量呈现时,我们需要提供更多背景信息,因为我们实际上只有一个用户(用户 5)经常使用该功能,而其余用户则不经常使用。
对于像本例这样的小数据集,我们可以查看数据本身来判断汇总统计量的合理性,但是当您尝试压缩的数据量变大时,最好查看分布情况,以确定统计量是否能公平地代表数据。
每次您报告统计数据时,请查看底层数据或分布情况,以判断您对数据的压缩是否有意义。