为什么统计数据并不总是能很好地概括数据

我教过成千上万的学生关于数据的知识，如果我希望他们记住一个概念，那就是平均值和中位数等汇总统计量会压缩信息。汇总统计量采用一组数字，并尝试用一个数字来表示它们。

问题是，作为一名分析师，您对这种压缩感到满意吗？您是否觉得该统计数据准确地代表了底层数据？

让我们看一下两组数字，情景 1 和情景 2，显示用户每天使用某个功能的频率

a table with 2 data distribution scenarios

两种情景的平均值均为 3。

那么我们是否应该说，在两种情景下，用户的平均使用频率都是每天 3 次？

对于第一种情景，3 感觉像是对数据进行合理压缩，因为数据相当正态分布。但作为一名分析师，如果您被问及有关用户行为的更深入问题，最好还是了解最大值和最小值是多少。

对于第二种情景，“3”感觉是完全不准确的压缩，因为数据的分布高度偏斜，您可能会认为 11 是应该排除的异常值。如果我们排除 11，则 1 将是非常适合情景 2 的汇总统计量，因为所有底层数字均为 1。如果我们不排除 11，那么在将 3 作为汇总统计量呈现时，我们需要提供更多背景信息，因为我们实际上只有一个用户（用户 5）经常使用该功能，而其余用户则不经常使用。

对于像本例这样的小数据集，我们可以查看数据本身来判断汇总统计量的合理性，但是当您尝试压缩的数据量变大时，最好查看分布情况，以确定统计量是否能公平地代表数据。

每次您报告统计数据时，请查看底层数据或分布情况，以判断您对数据的压缩是否有意义。

商业智能

嵌入式分析

文档

学习

为什么统计数据并不总是能很好地概括数据