2021年10月8日 发布于 分析与商业智能

9分钟阅读

使用数据时最常见的6种偏差类型

The Metabase Team Portrait
Metabase 团队
‧ 2021年10月8日 发布于 分析与商业智能

‧ 9分钟阅读

你正尝试做出一个好的决策,并决定查看数据以帮助你做出选择。你拥有自信所需的一切,并带着所向披靡的感觉继续前进——毕竟,你的数据支持你。但随后,事情并没有如你所愿。你突然手忙脚乱,试图弄清楚哪里出了问题。

如果这听起来很熟悉,你可能正在处理影响和扭曲你对周围世界感知的认知偏差。这些偏差是普遍存在的——固有地存在于每个人处理信息的方式中——但在处理和从数据中学习时,它们会变得更加复杂。

等等,我以为数据应该帮助我保持客观?

确实,使用数据有助于你做出更好的决策,这些决策基于现实而非个人观点。但仅仅因为你在使用数据,并不意味着你的偏见不能扭曲你对世界的看法。

认知偏差是思维中系统性的错误,通常由文化和个人经验继承而来,在做决策时会导致认知扭曲。虽然数据看似客观,但数据是由人类收集和分析的,因此可能存在偏差。

当人们习惯于训练机器学习模型时,这些影响只会加剧。模型会继承构建它们的人的偏差,并产生意想不到的有害结果,例如:

那么,我能如何应对数据偏差?

克服决策中偏差的第一步是熟悉最常见的数据偏差类型。为了帮助你入门,我们收集了六种最常见的数据偏差类型,并提供了一些建议的缓解策略。

1. 确认偏差

你可能每天都会遇到这种潜在的偏差。我们都喜欢自己是对的,所以我们的大脑不断地寻找支持我们原有信念的证据。即使我们尽力对其他想法保持开放态度,我们的思维也会向我们最初想法的安全和舒适靠拢。这可能通过我们搜索、解释或回忆信息时的无意识偏差发生,或者当我们有意识地选择性地关注支持我们论点的信息时发生。

确认偏差示例:社交媒体回音室

“我在脸书上看到的,是约翰分享的”——听起来熟悉吗?社交媒体算法利用了人们天生的确认偏差。通过推广和放大证实访问者已有信念的内容,社交媒体平台强化了访问者的原有信念,让他们持续沉浸在平台中。用户看到他们已经相信的内容,并离开时更加确信他们的观点得到了现实的支持。

如何避免确认偏差

  • 在开始分析之前,记录你的信念和假设。这将帮助你在审查结果时主动识别自己的偏差。
  • 查阅所有呈现的数据和证据,但不要立即下结论。抵制产生假设或收集额外信息来证实你的信念的诱惑。
  • 在分析结束时重新审视你记录的信念和假设,并评估它们是否影响了你的发现。

2. 选择偏差

选择偏差发生在查看不具有总体代表性的样本时。这可能在处理小数据集时自然发生,或者当抽样方法不是真正随机时发生。

选择偏差示例:A/B测试定价

一家初创公司想知道降低产品价格是否会带来更高的总收入。他们决定测试新定价一周,但只与来自美国的访客进行测试。当他们将定价推广到世界其他地区时,他们惊讶地发现更广泛的受众行为与他们的样本不同。

如何避免选择偏差

  • 使用随机化来确保你有一个代表性样本,而不是一个方便的样本。
  • 确保样本在你想要控制的变量中(例如,地理分布均匀)具有代表性。

3. 历史偏差

历史数据偏差发生在社会文化偏见和信仰反映到系统过程中。当来自具有历史偏见来源的数据用于训练机器学习模型时,这变得尤为棘手——例如,如果人工系统对某些人群给予不良信用评级,而你正在使用这些数据来训练自动化系统,那么自动化系统将复制并可能放大原始系统的偏差。

历史偏差示例:词嵌入

2013年,神经网络模型改变了机器理解书面词语的方式。这项技术允许计算机通过学习大量书面文本集(如维基百科、谷歌新闻或Reddit)来编码词语的语义含义。然而,我们已经看到一些例子,从现有数据集中获取的文本产生了模型,这些模型反映并放大了这些数据集中固有的偏差。例如,一个在维基百科上训练的机器学习模型产生了性别偏见的类比,如:男人 : 医生 :: 女人 : 护士,或者男人 : 指挥官 :: 女人 : 学校老师。该模型通过学习大量文本语料库,继承了社会的历史偏见,并产生了进一步强化这些偏见的工作成果。

如何避免历史偏差

  • 承认并识别历史和当代数据源中的偏差。
  • 为代表性不足的群体建立和培养包容性框架。

4. 幸存者偏差

关注胜利者比关注亚军更容易。如果你回顾2016年奥运会你最喜欢的比赛,你可能很难回忆起谁获得了银牌和铜牌。幸存者偏差会影响我们专注于胜利者的特征,因为缺乏其他样本的可见性——这混淆了我们辨别相关性和因果关系的能力。

幸存者偏差示例:过度重视成功企业家的建议

听了成功企业家等人的商业故事后,很容易不加质疑地尝试遵循他们的建议。为什么?他们成功了。你甚至可能认为成为成功企业家的关键是永远不要大学毕业。

他们确实取得了令人印象深刻的成就,但有多少人走过相同的道路却失败了呢?我们对那些失败的沉默企业家关注得少得多,但他们的数量要多得多。这并不意味着我们不应该研究成功领导者的策略,但我们需要记住,还有许多其他变量在起作用,决定了哪些组织能够成功。

如何避免幸存者偏差

  • 不要过度关注幸存下来的事物。退一步思考成功和失败参与者所走的路径。
  • 寻找故事另一方面的更多数据。

5. 可得性偏差

数据的可得性对我们看待世界的方式有很大的影响——但并非所有数据都得到同等的调查和权衡。你是否曾因为看到一扇破碎的车窗而怀疑你社区的犯罪率是否增加了?你看到了一个生动的线索,表明可能正在发生一些事情,但由于你可能没有继续调查犯罪统计数据,你的认知很可能根据即时可得的信息发生了转变。

可得性偏差示例:创新狂热

一项突破性的新技术正在席卷全球。你在每个广告牌、新闻文章中都能看到它,并不断从同事那里听到它的消息。当你遇到一项这项技术可能帮助你解决的问题时,它会首先出现在你的脑海中,你立即着手在新项目中实施它。几周后,你的项目进展不如你所希望的那样,你意识到一项更老、更成熟的技术可能是一个更好的解决方案。但由于这项突破性技术很容易在你的记忆中获取,你没有充分调查,最终不得不重新思考你的工作。

如何避免可得性偏差

  • 关注更大的趋势和模式,而不是生动的轶事性异常值。你所拥有的生动记忆可能是例外而不是规则,只有通过进一步调查才能确定。
  • 寻找不同的视角!新闻、媒体,还有你的团队、家人和朋友在塑造这种自然的捷径方面起着巨大的作用,因为他们更频繁地让你接触他们认为对你来说重要的信息,让你记住并关注。你可以通过培养好奇心和积极深入挖掘可用信息(即使更难获取)来理解特定情况,从而对抗可得性偏差。

6. 异常值偏差

平均值是隐藏不舒服真相的好地方。有些数据方便地以平均值形式可视化,但这种简单操作会隐藏异常值和异常情况的影响,并扭曲我们的观察。

异常值偏差示例:查看KPI的平均值

一家初创公司想确保其营销网站快速响应。他们决定跟踪平均延迟时间,以确保网站持续快速加载。在几个月大致一致的平均延迟时间值后,他们开始发现一些最重要页面的参与度下降。当他们进一步调查时,他们意识到这些页面的延迟时间急剧增加。他们的网站平均延迟时间继续呈现出一片光明景象,因为这些页面在许多其他表现良好的页面中属于异常值。

如何避免异常值偏差

  • 当平均值告诉你情况良好时,是时候深入挖掘了。
  • 查看整个分布范围
  • 使用中位数而不是平均值
  • 查找并调查异常值

最终想法:数据偏差

处理我们的认知偏差是使用数据和从数据中学习的重要组成部分。尽管数据帮助我们以前所未有的方式看待世界——意识到并采取预防措施来应对数据偏差是利用数据做出更好决策的重要一步。

致敬,

Metabase 团队

你可能也喜欢

所有文章
What is embedded analytics? Image 2025年5月15日 发布于 分析与商业智能

什么是嵌入式分析?

嵌入式分析意味着让你的用户可以直接在产品中访问图表、指标和报告,这样他们就可以在不离开你的应用或依赖他人获取答案的情况下,探索和处理他们的数据。

Alex Yarosh Portrait
Alex Yarosh

11分钟阅读

Top 5 Dashboard fails (and how to fix them) Image 2025年4月25日 发布于 分析与商业智能

5大仪表板失败案例(以及如何修复)

仪表板旨在指导决策,而非制造混乱。本指南将介绍五个常见误区以及如何修复它们。

Abed Habli Portrait
Abed Habli

7分钟阅读

所有文章
© . All rights reserved.