Chevron Left

查看所有社区故事

为什么统计数据不总能很好地总结数据

2022年3月14日

贡献者

Matt David

Datafold

photo of Matt David

Matt 在数据领域工作已有 8 年。他目前担任 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 担任与数据相关的职务。他致力于帮助更多人有效地使用数据。您可以在 LinkedIn 上找到 Matt。

我教过数千名学生关于数据方面的知识,如果说有一个概念我希望他们能记住,那就是平均值和中位数等汇总统计数据会压缩信息。汇总统计数据会取一组数字,并试图用一个单一的数字来代表所有这些数字。

问题是,作为一名分析师,你对这种压缩感到满意吗?你觉得这个统计数据准确地代表了底层数据吗?

让我们看两组数字,场景 1 和场景 2,它们显示了用户每天使用某项功能的频率

a table with 2 data distribution scenarios

两种场景的平均值都是 3。

那么我们是否应该说,在两种场景中,用户平均每天使用该功能 3 次呢?

对于第一个场景,3 感觉是对数据的一次合理压缩,因为数据大致呈正态分布。但作为分析师,如果有人问及用户行为的更深入问题,了解最大值和最小值仍然是好的。

对于第二个场景,“3”感觉是完全不准确的压缩,因为数据的分布高度倾斜,你可能会认为 11 是一个应该被排除的异常值。如果我们排除 11,那么 1 将是场景 2 中一个非常合适的汇总统计数据,因为所有底层数字都是 1。如果我们不排除 11,那么在将 3 作为汇总统计数据呈现时,我们需要提供更多上下文,因为我们实际上有一个用户(用户 5)使用该功能非常频繁,而其余用户则不经常使用。

对于像本例这样的小数据集,我们可以直接查看数据本身来判断汇总统计数据的公平性,但当您尝试压缩的数据量很大时,最好查看分布情况,以确定统计数据是否公平地代表了数据。

每次报告统计数据时,请务必查看底层数据或其分布情况,以判断您对数据的压缩是否有意义。

贡献者

Matt David

Datafold

photo of Matt David

Matt 在数据领域工作已有 8 年。他目前担任 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 担任与数据相关的职务。他致力于帮助更多人有效地使用数据。您可以在 LinkedIn 上找到 Matt。

您可能还喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase

数据分析师职业建议

Rob Glickman

Cledara

利用数据提供可信赖的指标

Frédéric Vion

Subclic

您可能还喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase

数据分析师职业建议

Rob Glickman

Cledara

利用数据提供可信赖的指标

Frédéric Vion

Subclic

© . All rights reserved.