我曾教授数千名学生数据知识,如果有一个概念我希望他们能记住,那就是平均值和中位数等摘要统计量会压缩信息。摘要统计量获取一组数字,并尝试用单个数字来代表所有数字。
问题是,作为一名分析师,您是否对这种压缩感到满意?您是否觉得该统计数据准确地代表了基础数据?
让我们看两组数字,场景 1 和场景 2,显示用户每天使用某个功能的频率
两个场景的平均值都为 3。
那么,我们是否应该说在两个场景中,用户平均每天使用该功能 3 次?
对于第一个场景,“3”感觉是对数据的一个公平压缩,因为数据大致呈正态分布。然而,作为一名分析师,如果被问及更深入的用户行为问题,了解最大值和最小值仍然是好的。
对于第二个场景,“3”感觉是完全不准确的压缩,因为数据的分布高度偏斜,您可能会认为 11 是一个应该排除的异常值。如果我们将 11 排除,那么“1”将是场景 2 的一个非常合适的摘要统计量,因为所有基础数字都是 1。如果我们不排除 11,那么在呈现“3”作为摘要统计量时,我们需要提供更多背景信息,因为我们实际上有一个用户(用户 5)频繁使用该功能,而其余用户不经常使用。
对于像本例这样的小数据集,我们可以通过查看数据本身来判断摘要统计量的公平性,但当您尝试压缩的数据量很大时,最好查看分布以确定统计量是否公平地代表了数据。
每次报告统计数据时,请查看基础数据或分布,以判断您对数据的压缩是否有意义。