‧
9 分钟阅读
使用数据时 6 种最常见的偏见类型
Metabase 团队
‧ 9 分钟阅读
分享这篇文章
您正在尝试做出一个好的决定,并决定查看您的数据以帮助您做出判断。您拥有感到自信并勇往直前所需的一切——毕竟,您的数据支持您。但是,事情并没有像您预期的那样发展。突然间,您陷入混乱,并试图找出哪里出了问题。
如果这听起来很熟悉,那么您可能正在处理认知偏差,这些偏差正在影响和扭曲您感知周围世界的方式。这些偏差是普遍存在的——本质上是每个人处理信息方式的一部分——但在处理数据和从中学习时,它们会变得更加复杂。
等等,我以为数据应该帮助我保持客观?
的确,使用数据有助于您做出更好的决策,这些决策以现实而非意见为基础。但仅仅因为您正在使用数据,并不意味着您的偏见不会扭曲您看待世界的方式。
认知偏差是思维中的系统性错误,通常由文化和个人经验继承而来,在做出决策时会导致感知扭曲。虽然数据看起来是客观的,但数据是由人类收集和分析的,因此可能存在偏差。
当人们习惯于训练机器学习模型时,这些影响只会增加。模型继承了构建它们的人的偏见,并产生了意想不到的有害结果,例如这些
那么,我该如何处理数据偏差?
克服决策中偏差的第一步是熟悉最常见的数据偏差类型。为了帮助您入门,我们收集了六种最常见的数据偏差类型,以及一些建议的缓解策略。
1. 确认偏差
您可能在日常生活中每天都遇到这种潜在的偏差。我们都喜欢成为正确的,所以我们的大脑不断寻找证据来支持我们先前的信念。即使我们尽力对其他想法持开放态度,我们的思想也会向我们最初想法的安全和舒适感推回。这可能在潜意识中发生,通过我们在搜索、解释或回忆信息的方式中的偏差,或者在有意识地发生,当我们决定有选择地挑选时,通过关注支持我们论点的信息。
确认偏差示例:社交媒体回音室
“我在 Facebook 上看到的,是 John 分享的”——听起来熟悉吗?社交媒体算法利用了人们天生的确认偏差。通过推广和放大证实访问者已经相信的内容,社交媒体平台加强了访问者先前的信念,使他们保持对平台的参与。用户看到他们已经相信的内容,并离开时感觉更确信他们的观点在现实中得到了支持。
如何避免确认偏差
- 在开始分析之前记录您的信念和假设。这将帮助您在审查结果时主动识别您的偏差。
- 查看所有呈现的数据和证据,但不要立即得出结论。抵制产生假设或收集额外信息以证实您的信念的诱惑。
- 在分析结束时重新审视您记录的信念和假设,并评估它们是否影响了您的发现。
2. 选择偏差
当查看不具有人口代表性的样本时,就会发生选择偏差。当处理少量数据集时,或者当抽样方法不是真正随机化时,这种情况可能会自然发生。
选择偏差示例:A/B 测试定价
一家初创公司想知道降低产品价格是否会带来更高的总收入。他们决定测试他们的新定价一周,但仅在美国访问者中进行测试。当他们将定价推广到世界其他地区时,他们惊讶地发现更广泛的受众的行为与他们的样本不同。
如何避免选择偏差
- 使用随机化来确保您拥有有代表性的样本,而不是方便的样本。
- 确保样本在您想要控制的变量中具有人口代表性(例如,地理位置均匀分布)
3. 历史偏差
当社会文化偏见和信仰反映到系统流程中时,就会发生历史数据偏差。当来自历史上存在偏差的来源的数据用于训练机器学习模型时,这变得尤其具有挑战性——例如,如果手动系统给某些人群的信用评级很差,并且您正在使用该数据来训练自动系统,则自动系统将复制并可能放大原始系统的偏差。
历史偏差示例:词嵌入
2013 年,神经网络模型改变了机器理解书面文字的方式。这项技术允许计算机通过学习来自大量书面文本(如 Wikipedia、Google 新闻或 Reddit)来编码单词的语义含义。但是,我们已经看到几个例子,其中来自现有数据集的文本产生了反映和放大这些数据集中包含的现有偏差的模型。例如,在 Wikipedia 上训练的机器学习模型产生了性别偏见的类比,例如:男人:医生 :: 女人:护士,或男人:指挥官 :: 女人:学校老师。该模型通过学习大量的文本语料库继承了社会历史偏差,并产生了进一步加强这些偏差的作品。
如何避免历史偏差
- 承认并识别历史和当代数据来源中的偏差。
- 为代表性不足的群体建立和培养包容性框架。
4. 幸存者偏差
更容易关注获胜者而不是亚军。如果您回想起 2016 年奥运会上您最喜欢的比赛,可能很难回忆起谁获得了银牌和铜牌。幸存者偏差影响我们关注获胜者的特征,因为缺乏其他样本的可见性——混淆了我们辨别相关性和因果关系的能力。
幸存者偏差示例:过度关注成功企业家的建议
在听取了成功企业家的商业故事后,很容易尝试毫无疑问地遵循他们的建议。为什么?他们成功了。您甚至可能认为,成为成功企业家的关键是永远不要完成大学学业。
他们确实取得了令人印象深刻的成果,但是有多少其他人遵循了同样的道路但失败了呢?我们对失败的沉默企业家关注得少得多,但他们的数量要多得多。这并不意味着我们不应该研究成功领导者的策略,但我们需要记住,还有许多其他变量在起作用,这些变量决定了哪些组织会成功。
如何避免幸存者偏差
- 不要过度关注幸存下来的事物。退后一步,考虑成功和不成功的参与者所走的道路。
- 查找更多关于故事另一面的数据。
5. 可用性偏差
数据的可用性对我们如何看待世界有很大的影响——但并非所有数据都得到同等程度的调查和权衡。您是否曾经发现自己想知道您所在社区的犯罪率是否增加了,因为您看到了破损的车窗?您看到了一个生动的线索,表明可能正在发生某些事情,但由于您可能没有继续调查犯罪统计数据,因此您的看法很可能根据立即可用的信息发生了转变。
可用性偏差示例:创新狂热
一项突破性的新技术正在席卷全球。您在每个广告牌、新闻文章中都看到了它,并且从您的同事那里不停地听到它。当您遇到这项技术可以帮助您解决的问题时,它会首先出现在您的脑海中,并且您会立即开始在新项目上实施它。几周后,您的项目进展不如您预期的那样顺利,并且您意识到一种更成熟、更久经考验的技术可能是一个更好的解决方案。但是由于突破性技术很容易在您的记忆中获得,因此您没有充分调查,最终需要重新思考您的工作。
如何避免可用性偏差
- 关注更大的趋势和模式,而不是生动的轶事异常值。您拥有的生动记忆可能是例外而不是规则,您只有通过进一步调查才能确定。
- 寻找不同的视角!新闻、媒体,以及您的团队、家人和朋友在塑造这种自然捷径方面发挥着巨大的作用,因为他们更频繁地向您展示他们认为对您来说重要且需要关注的事物。您可以通过培养好奇心并主动挖掘可用信息(即使更难获得)来对抗可用性偏差,以了解给定的情况。
6. 异常值偏差
平均值是隐藏令人不安真相的好地方。一些数据可以方便地可视化为平均值,但这种简单的操作会隐藏异常值和异常的影响,并歪曲我们的观察结果。
异常值偏差示例:查看 KPI 的平均值
一家初创公司希望确保他们的营销网站感觉快速且响应迅速。他们决定跟踪他们的平均延迟时间,以确保他们的网站继续快速加载。在几个月大致一致的平均延迟值之后,他们开始看到一些最重要的页面上的参与度下降。当他们进一步调查时,他们意识到这些页面上的延迟时间急剧上升。他们的全站平均延迟时间继续描绘一幅美好的景象,因为这些页面在许多其他表现良好的页面中是异常值。
如何避免异常值偏差
- 当平均值告诉您情况看起来不错时,就该深入挖掘了。
- 查看整个分布范围
- 使用中位数而不是平均值
- 查找并调查异常值
最终想法:数据偏差
克服我们的认知偏差是使用数据和从中学习的重要组成部分。尽管数据帮助我们以前所未有的方式看待世界——意识到数据偏差并采取预防措施是利用数据做出更好决策的重要一步。
干杯,
Metabase 团队