Chevron Left

查看所有社区故事

统计数据并非总是能很好地总结数据

2022 年 3 月 14 日

作者

Matt David

Datafold

photo of Matt David

Matt 在数据领域工作了 8 年。他目前是 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 担任与数据相关的职务。他专注于帮助更多人有效地使用数据。您可以在 LinkedIn 上找到 Matt。

我曾向数千名学生传授过数据知识,如果他们只记住了其中一个概念,那就是平均值和中位数等汇总统计数据会压缩信息。汇总统计数据会采用一组数字,并试图用一个数字来代表所有这些数字。

问题是,作为一名分析师,您对这种压缩感到满意吗?您是否觉得该统计数据准确地代表了底层数据?

我们来看两组数字,场景 1 和场景 2,显示用户每天使用某项功能的频率。

a table with 2 data distribution scenarios

两个场景的平均值均为 3。

那么,我们应该说,在两个场景中,用户平均每天使用该功能的次数为 3 次吗?

对于第一个场景,3 似乎是对数据的合理压缩,因为数据大致呈正态分布。然而,作为一名分析师,如果您被问到更深入的用户行为问题,了解最大值和最小值仍然是件好事。

对于第二个场景,“3”感觉完全不准确,因为数据的分布高度偏斜,您可能会认为 11 是一个应该排除的异常值。如果我们排除了 11,那么 1 将是场景 2 的一个非常合适的汇总统计数据,因为所有底层数字都是 1。如果我们不排除 11,那么在将 3 作为汇总统计数据进行展示时,我们就需要提供更多上下文,因为实际上有一个用户(用户 5)使用该功能很多,而其他人则不经常使用。

对于像本例这样的小型数据集,我们可以查看数据本身来判断汇总统计数据的公平性,但当您试图压缩的数据量很大时,最好查看分布情况,以确定统计数据是否公平地代表了数据。

每次报告统计数据时,请查看底层数据或分布情况,以判断您对数据的压缩是否合理。

作者

Matt David

Datafold

photo of Matt David

Matt 在数据领域工作了 8 年。他目前是 Datafold 的增长总监,此前曾在 Atlassian、Chartio 和 Udacity 担任与数据相关的职务。他专注于帮助更多人有效地使用数据。您可以在 LinkedIn 上找到 Matt。

您可能也喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase

给数据分析师的职业建议

Rob Glickman

Cledara

利用数据提供可信的指标

Frédéric Vion

Subclic

您可能也喜欢

撰写社区故事的技巧

Metabot

Metabase

预测下一次点击

Ukrit Wattanavaekin

Metabase

给数据分析师的职业建议

Rob Glickman

Cledara

利用数据提供可信的指标

Frédéric Vion

Subclic

© . This site is unofficial and not affiliated with Metabase, Inc.