‧
阅读时间:9分钟
使用数据时最常见的6种偏差类型
Metabase 团队
‧ 阅读时间:9分钟
分享这篇文章
你正试图做出一个好的决定,并决定查看你的数据以帮助你做出选择。你已经拥有了一切,让你感到自信,并带着无敌的感觉前进——毕竟,你的数据支持你。但是,事情并没有按你预期的方向发展。突然间,你陷入了混乱,试图弄清楚出了什么问题。
如果你有这种经历,你可能正在处理认知偏见,这些偏见正在影响和扭曲你对周围世界的感知。这些偏见是普遍存在的——它们是每个人处理信息方式固有的组成部分——但在处理和学习数据时,它们会变得更加复杂。
等等,我以为数据应该帮助我保持客观呢?
确实,与数据工作可以帮助你做出更好的决定,这些决定是基于现实而不是观点。但仅仅因为你在与数据工作,并不意味着你的偏见不能扭曲你对世界的看法。
认知偏见是思考中的系统错误,通常源于文化和个人经验,它们在做出决策时会导致感知的扭曲。而尽管数据可能看起来是客观的,但数据是由人收集和分析的,因此可能存在偏见。
当人们习惯于训练机器学习模型时,这些影响只会加剧。模型继承了构建它们的人们的偏见,并产生了意外的有害结果,如以下这些:
那么我能做什么来克服数据偏见呢?
克服决策中偏见的第一步是熟悉最常见的几种数据偏见类型。为了帮助你开始,我们收集了六种最常见的类型的数据偏见,以及一些推荐的缓解策略。
1. 确认性偏见
你可能在生活的每一天都遇到了这种潜在的偏见。我们都喜欢正确,因此我们的头脑不断在寻找支持我们先前信念的证据。即使我们尽力对替代性想法持开放态度,我们的思维还是会向自己最初的想法的安全和舒适感回归。这可能是通过我们在搜索、解释或回忆信息时的偏见在潜意识中发生的,或者在我们决定挑选支持我们论点的信息时是有意识的。
确认偏见的例子:社交媒体回音室
“我在Facebook上看到了,是John分享的”——这听起来熟悉吗?社交媒体算法利用了人们的自然确认偏见。通过推广和放大确认访问者已有信念的内容,社交媒体平台强化了访问者的先前信念,使他们与平台保持互动。用户看到他们已经相信的内容,离开时更加确信他们的观点在现实中得到了支持。
如何避免确认偏见
- 在开始分析之前记录你的信念和假设。这有助于你在审查结果时主动识别你的偏见。
- 审视所有呈现的数据和证据,但不要立即得出结论。抵制生成假设或收集更多信息以确认你信念的诱惑。
- 在分析结束时重新审视你记录的信念和假设,并评估它们是否影响了你的发现。
2. 选择偏见
选择偏见发生在观察的样本不代表总体时。这可能在处理小型数据集时自然发生,或者当抽样方法不是真正随机时。
选择偏见的例子:A/B测试定价
一家初创公司想知道降低产品价格是否会导致总收入提高。他们决定测试一周的新定价,但只测试来自美国的访问者。当他们将定价推广到全球其他地区时,惊讶地发现更广泛的受众行为与他们样本不同。
如何避免选择偏见
- 使用随机化来确保你有代表性样本而不是便利样本。
- 确保样本在你想控制的变量中代表总体(例如,地理分布均匀)
3. 历史偏见
历史数据偏见发生在社会文化偏见和信念反映到系统性过程中时。当使用历史上带有偏见的来源的数据来训练机器学习模型时,这尤其具有挑战性——例如,如果人工系统给某些群体的人较差的信用评级,而你正在使用这些数据来训练自动系统,该自动系统会复制并可能放大原始系统的偏见。
历史偏见例子:词嵌入
2013年,神经网络模型改变了机器理解书面文字的方式。这项技术允许计算机通过从庞大的书面文本集中学习,如维基百科、谷歌新闻或Reddit,来编码单词的语义含义。然而,我们已经看到了几个例子,其中来自现有数据集的文本产生了反映并放大那些数据集中现有偏见的模型。例如,在维基百科上训练的机器学习模型产生了性别歧视性的类比,如:男人:医生 :: 女人:护士,或男人:指挥官 :: 女人:教师。该模型通过学习巨大的文本语料库,继承了社会的历史偏见,并产生了进一步强化那些偏见的工作。
如何避免历史偏见
- 承认和识别历史和当代数据来源中的偏差。
- 建立和培养代表性不足群体的包容性框架。
4. 存活者偏差
关注赢家比关注亚军更容易。回想一下2016年奥运会上你最喜欢的比赛,你可能很难想起银牌和铜牌得主。存活者偏差使我们专注于赢家的特征,因为其他样本的可见性不足——这混淆了我们区分相关性和因果关系的能力。
存活者偏差示例:过度关注成功企业家的建议
听到成功企业家等人的商业故事后,不加质疑地试图遵循他们的建议是很诱人的。为什么?因为他们成功了。你可能甚至认为成为成功企业家的关键是永远不上大学。
他们确实取得了令人印象深刻的成果,但有多少其他人遵循了相同的道路却失败了?我们对失败的沉默数字关注较少,但他们的数量要多得多。这并不意味着我们不应该研究成功领导者的策略,但我们需要记住,还有许多其他变量在起作用,这些变量决定了哪些组织会成功。
如何避免存活者偏差
- 不要过度关注存活下来的事物。退一步,考虑成功和失败的参与者的路径。
- 为故事的另一面找到更多数据。
5. 可及性偏差
数据可及性对我们如何看待世界有很大影响——但并非所有数据都同等受到调查和权衡。你是否曾经因为看到一辆破损的汽车窗户而怀疑你所在地区的犯罪是否有所增加?你看到了一个生动的线索,表明可能有什么事情正在发生,但由于你可能没有继续调查犯罪统计数据,因此你很可能基于可立即获得的信息改变了你的看法。
可及性偏差示例:创新狂热
一项突破性的新技术正在席卷全球。你看到它出现在每个广告牌、新闻文章上,你的同事也一直在谈论它。当你遇到这项技术可以帮助解决的问题时,它就是你首先想到的事情,你立即开始在你新的项目中实施它。几周后,你的项目并没有像你希望的那样顺利进行,你意识到一个更老、更可靠的技术可能是一个更好的解决方案。但由于突破性成果在你的记忆中很容易找到,你没有进行全面调查,结果需要重新思考你的工作。
如何避免可及性偏差
- 关注更大的趋势和模式,而不是生动的轶事异常。你记忆中的生动记忆可能是例外而不是规则,你需要进一步调查才能确定这一点。
- 寻找不同的观点!新闻、媒体,以及你的团队、家人和朋友都起着巨大的作用,因为它们让你更频繁地接触到他们认为对你来说重要的事情,需要记住和关注。通过培养好奇心和主动挖掘可获得的信息(即使这更困难),你可以通过了解特定情况来对抗可及性偏差。
6. 异常值偏差
平均值是一个隐藏令人不适真相的好地方。一些数据以平均值形式可视化很方便,但这种简单操作隐藏了异常值和异常的影响,并歪曲了我们的观察。
异常值偏差示例:查看关键绩效指标(KPI)的平均值
一家初创公司想确保其营销网站感觉快速且响应迅速。他们决定跟踪平均延迟时间,以确保网站继续快速加载。在几个月的大致一致的平均延迟值后,他们开始注意到一些最重要页面的参与度下降。当他们进一步调查时,他们意识到那些页面的延迟飙升。尽管那些页面在其他表现良好的页面中是异常值,但整个网站的 平均延迟时间仍然描绘了一幅美好的画面。
如何避免异常值偏差
- 当平均值告诉你一切看起来都很好时,是时候深入挖掘了。
- 查看整个分布范围
- 使用中位数而不是平均值
- 找到并调查异常值
结语:数据偏差
克服我们的认知偏差是使用和学习数据的重要部分。尽管数据帮助我们以前所未有的方式看待世界——意识到并采取预防措施来对抗数据偏差是做出更好决策的重要一步。
干杯,
Metabase 团队