Chevron Left

查看所有社区故事

为什么统计数据并非总能很好地总结数据

2022 年 3 月 14 日

作者

马特·大卫

Datafold

photo of Matt David

Matt 在数据领域工作了 8 年。他目前是 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 担任数据相关职务。他专注于帮助更多人有效地使用数据。您可以在 LinkedIn 上找到 Matt。

我曾教授数千名学生数据知识,如果有一个概念我希望他们能记住,那就是平均值和中位数等摘要统计量会压缩信息。摘要统计量获取一组数字,并尝试用单个数字来代表所有数字。

问题是,作为一名分析师,您是否对这种压缩感到满意?您是否觉得该统计数据准确地代表了基础数据?

让我们看两组数字,场景 1 和场景 2,显示用户每天使用某个功能的频率

a table with 2 data distribution scenarios

两个场景的平均值都为 3。

那么,我们是否应该说在两个场景中,用户平均每天使用该功能 3 次?

对于第一个场景,“3”感觉是对数据的一个公平压缩,因为数据大致呈正态分布。然而,作为一名分析师,如果被问及更深入的用户行为问题,了解最大值和最小值仍然是好的。

对于第二个场景,“3”感觉是完全不准确的压缩,因为数据的分布高度偏斜,您可能会认为 11 是一个应该排除的异常值。如果我们将 11 排除,那么“1”将是场景 2 的一个非常合适的摘要统计量,因为所有基础数字都是 1。如果我们不排除 11,那么在呈现“3”作为摘要统计量时,我们需要提供更多背景信息,因为我们实际上有一个用户(用户 5)频繁使用该功能,而其余用户不经常使用。

对于像本例这样的小数据集,我们可以通过查看数据本身来判断摘要统计量的公平性,但当您尝试压缩的数据量很大时,最好查看分布以确定统计量是否公平地代表了数据。

每次报告统计数据时,请查看基础数据或分布,以判断您对数据的压缩是否有意义。

作者

马特·大卫

Datafold

photo of Matt David

Matt 在数据领域工作了 8 年。他目前是 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 担任数据相关职务。他专注于帮助更多人有效地使用数据。您可以在 LinkedIn 上找到 Matt。

您可能也喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase

给数据分析师的职业建议

Rob Glickman

Cledara

利用数据提供可信的指标

Frédéric Vion

Subclic

您可能也喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase

给数据分析师的职业建议

Rob Glickman

Cledara

利用数据提供可信的指标

Frédéric Vion

Subclic

© . This site is unofficial and not affiliated with Metabase, Inc.