‧
阅读时间 9 分钟
处理数据时最常见的 6 种偏见
Metabase 团队
‧ 9 分钟阅读
分享本文
您正试图做出一个好的决定,并决定查看您的数据来帮助您做出选择。您拥有了充满信心所需的一切,并感觉所向无敌地前进——毕竟,您的数据支持您。但随后,事情并没有按照您预期的方式发展。突然间,您手忙脚乱,试图弄清楚哪里出了问题。
如果这听起来很熟悉,您可能正在处理认知偏见,这些偏见正在影响和扭曲您感知周围世界的方式。这些偏见是普遍存在的——它们是每个人处理信息的固有部分——但在处理和从数据中学习时,它们会变得更加复杂。
等等,我以为数据是用来帮助我保持客观的?
的确,使用数据可以帮助您做出更好的决策,这些决策是基于现实而非观点。但是,仅仅因为您正在使用数据,并不意味着您的偏见不会扭曲您看待世界的方式。
认知偏见是思维中的系统性错误,通常由文化和个人经历继承而来,在做出决策时会导致感知扭曲。虽然数据可能看起来是客观的,但数据是由人类收集和分析的,因此也可能存在偏见。
当人们习惯于训练机器学习模型时,这些影响只会越来越大。模型继承了构建它们的人的偏见,并产生意想不到的有害结果,例如:
那么,我该如何应对数据偏见呢?
克服决策中偏见的第一步是熟悉最常见的数据偏见类型。为了帮助您入门,我们收集了六种最常见的数据偏见类型,以及一些推荐的缓解策略。
1. 确认偏见
您可能在日常生活中每天都遇到这种潜在的偏见。我们都喜欢自己是正确的,所以我们的大脑总是在寻找支持我们先前信念的证据。即使我们尽力对其他想法持开放态度,我们的思想也会推向我们自己最初想法的安全和舒适区。这可能在潜意识中发生,通过我们搜索、解释或回忆信息的方式产生偏见,也可能在有意识地发生,当我们决定“挑挑拣拣”,只关注支持我们论点的信息时。
确认偏见示例:社交媒体回声室
“我在 Facebook 上看到的,是 John 分享的”——听起来熟悉吗?社交媒体算法利用了人们天生的确认偏见。通过推广和放大那些证实访客已有信念的内容,社交媒体平台强化了访客的先前信念,让他们持续与平台互动。用户看到他们已经相信的东西,离开时更加确信他们的观点在现实中是得到支持的。
如何避免确认偏见
- 在开始分析之前,记录下您的信念和假设。这将帮助您在审查结果时主动识别自己的偏见。
- 仔细阅读所有呈现的数据和证据,但不要立即下结论。抵制产生假设或收集额外信息以证实您信念的诱惑。
- 在分析结束时,重新审视您记录的信念和假设,并评估它们是否影响了您的发现。
2. 选择偏见
当查看的样本不能代表总体时,就会出现选择偏见。这可能在使用小数据集或抽样方法并非真正随机时自然发生。
选择偏见示例:A/B 测试定价
一家初创公司想知道降低产品价格是否会带来更高的总收入。他们决定测试新定价一周,但只对来自美国的访客进行测试。当他们向世界其他地区推出该定价时,他们惊讶地发现,更广泛的受众行为与他们的样本不同。
如何避免选择偏见
- 使用随机化来确保您有一个代表性的样本,而不是一个方便的样本。
- 确保样本在您想要控制的变量方面能够代表总体(例如,地理位置分布均匀)
3. 历史偏见
当社会文化偏见和信念被反映到系统性流程中时,就会出现历史数据偏见。当来自具有历史偏见来源的数据被用来训练机器学习模型时,这变得尤其具有挑战性——例如,如果手动系统给某些人群评级较差,而您使用该数据来训练自动系统,那么自动系统将复制并可能放大原始系统的偏见。
历史偏见示例:词嵌入
2013年,神经网络模型改变了机器理解书面文字的方式。这项技术允许计算机通过从大量的书面文本(如维基百科、谷歌新闻或Reddit)中学习来编码词语的语义。然而,我们已经看到了几个例子,其中从现有数据集中获取的文本产生的模型反映并放大了这些数据集中包含的现有偏见。例如,一个在维基百科上训练的机器学习模型产生了性别偏见的类比,如:男人 : 医生 :: 女人 : 护士,或男人 : 指挥官 :: 女人 : 学校老师。该模型通过学习大量的文本语料库,继承了社会的历史偏见,并产生了进一步强化这些偏见的作品。
如何避免历史偏见
- 承认并识别历史和当代数据源中的偏见。
- 为代表性不足的群体建立和培养包容性框架。
4. 幸存者偏见
人们更容易关注赢家而不是亚军。如果你回想一下2016年奥运会上你最喜欢的比赛,可能很难记起谁获得了银牌和铜牌。幸存者偏见影响我们关注赢家的特征,因为其他样本的可见性不足——这混淆了我们辨别相关性和因果关系的能力。
幸存者偏见示例:过度依赖成功企业家的建议
听了像成功企业家这样的商业故事后,人们很容易毫无疑问地尝试遵循他们的建议。为什么?因为他们成功了。你甚至可能认为成为成功企业家的关键是永远不要完成大学学业。
他们确实取得了令人印象深刻的成就,但有多少其他人遵循了同样的道路却失败了?我们对那些失败的沉默的企业家关注得少得多,但他们的数量要多得多。这并不意味着我们不应该研究成功领导者的策略,但我们需要记住,决定哪些组织成功的变量还有很多。
如何避免幸存者偏差
- 不要过度依赖幸存下来的事物。退一步思考,考虑成功和不成功参与者所走的道路。
- 为故事的另一面寻找更多数据。
5. 可得性偏见
数据的可得性对我们看待世界的方式有很大影响——但并非所有数据都得到同等的调查和衡量。你是否曾因为看到一扇破碎的车窗而怀疑你所在社区的犯罪率是否上升了?你看到了一个生动的线索,表明可能发生了什么事,但由于你可能没有去调查犯罪统计数据,你的看法很可能是基于眼前可得的信息而改变的。
可用性偏差示例:创新狂热
一项突破性的新技术正在席卷全球。你在每个广告牌、新闻文章上都能看到它,并且不断从同事那里听到。当你遇到一个这项技术可以帮助你解决的问题时,它会第一个出现在你的脑海里,你立即开始在你的新项目中实施它。几周后,你的项目进展不如预期,你意识到一个更旧、更成熟的技术可能是更好的解决方案。但因为这个突破性的技术在你的记忆中很容易获得,你没有进行充分的调查,最终需要重新思考你的工作。
如何避免可用性偏差
- 关注更大的趋势和模式,而不是生动的个别异常值。你记忆中生动的事件可能是例外而不是常规,只有通过进一步调查才能确定。
- 寻找不同的视角!新闻、媒体,以及你的团队、家人和朋友在塑造这种自然的思维捷径方面扮演着重要角色,因为他们会更频繁地让你接触到他们认为对你来说重要和值得关注的事情。你可以通过保持好奇心和主动挖掘可用信息(即使获取信息更困难)来对抗可用性偏差,以了解特定情况。
6. 异常值偏差
平均值是隐藏不舒服真相的好地方。有些数据用平均值来可视化很方便,但这种简单的操作隐藏了异常值和异常现象的影响,并扭曲了我们的观察。
异常值偏差示例:查看 KPI 的平均值
一家初创公司希望确保其营销网站感觉快速且响应迅速。他们决定跟踪其平均延迟时间,以确保其网站继续快速加载。在平均延迟值大致保持一致几个月后,他们开始看到一些最重要页面的参与度下降。当他们进一步调查时,他们意识到这些页面的延迟时间已经飙升。他们全站范围内的平均延迟时间继续描绘出一幅美好的景象,因为这些页面在许多其他表现良好的页面中是异常值。
如何避免异常值偏差
- 当平均值告诉你情况看起来不错时,是时候深入挖掘了。
- 查看整个分布范围
- 使用中位数代替平均数
- 查找和调查异常值
最后的思考:数据偏见
克服我们的认知偏见是处理数据和从中学习的重要组成部分。尽管数据帮助我们以前所未有的方式看待世界,但意识到并采取预防措施来应对数据偏见是利用数据做出更好决策的重要一步。
祝好,
Metabase 团队