Chevron Left

查看所有社区故事

为什么统计数据并不总是很好地概括数据

2022年3月14日

Matth David

Datafold

photo of Matt David

Matth 在数据领域工作了8年。他目前是 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 的数据相关角色工作。他专注于帮助更多的人有效利用数据。你可以在 LinkedIn 上找到 Matth。

我教了成千上万的学生关于数据的知识,如果他们能记住一个概念,那就是像平均值和中位数这样的汇总统计可以压缩信息。汇总统计试图用单个数字来表示一组数字。

问题是,作为一名分析师,你是否对这种压缩感到舒服?你是否觉得这个统计准确地代表了基本数据?

让我们看看两组数字,情景1和情景2,显示用户每天使用功能的频率

a table with 2 data distribution scenarios

两个情景的平均值都是3。

所以我们应该说,在两个情景中,用户平均每天使用该功能3次吗?

对于第一个情景,3感觉是对数据的公平压缩,因为数据分布相对正常。但作为分析师,如果你被问到更深入的问题关于用户行为,了解最大值和最小值仍然很好。

对于第二个情景,“3”感觉是完全不准确的数据压缩,因为数据的分布高度倾斜,你可能认为11是异常值应该排除。如果我们排除11,1将是情景2一个非常合适的汇总统计,因为所有基本数字都是1。如果我们不排除11,在呈现3作为汇总统计时,我们需要提供更多的背景,因为我们实际上只有一个用户(用户5)经常使用该功能,其他用户不经常使用。

对于如此小的数据集,例如本例所示,我们可以查看数据本身以判断汇总统计的公平性,但当你要压缩的数据量很大时,最好查看分布以确定统计是否公平地代表数据。

每次你报告一个统计时,请查看基本数据或分布,以判断你的数据压缩是否合理。

Matth David

Datafold

photo of Matt David

Matth 在数据领域工作了8年。他目前是 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 的数据相关角色工作。他专注于帮助更多的人有效利用数据。你可以在 LinkedIn 上找到 Matth。

你可能也喜欢

预测下一点击

Ukrit Wattanavaekin

Metabase

基于规则的推荐

Conor Dewey

Metabase

数据分析师职业建议

Rob Glickman

Cledara

你可能也喜欢

预测下一点击

Ukrit Wattanavaekin

Metabase

基于规则的推荐

Conor Dewey

Metabase

数据分析师职业建议

Rob Glickman

Cledara