‧
阅读时间 9 分钟
数据处理时最常见的6种偏差
Metabase 团队
‧ 9 分钟阅读
分享本文
您正试图做出一个好的决定,并决定查看您的数据来帮助您做出选择。您拥有做出明智决定所需的一切,并自信地前进——毕竟,您的数据支持您。但随后,事情并没有像您预期的那样发展。您突然陷入困境,试图弄清楚哪里出了问题。
如果这听起来很熟悉,您可能正在处理认知偏差,这些偏差会影响和扭曲您对周围世界的看法。这些偏差是普遍存在的——是每个人处理信息方式的固有组成部分——但当与数据打交道和从中学习时,它们会变得更加复杂。
等等,我以为数据应该帮助我客观吗?
没错,使用数据可以帮助您做出更明智的决定,这些决定基于现实而非个人意见。但仅仅因为您正在使用数据,并不意味着您的偏见无法扭曲您对世界的看法。
认知偏差是思维中的系统性错误,通常由文化和个人经验继承而来,在做决定时会导致感知的扭曲。虽然数据看起来是客观的,但数据是由人收集和分析的,因此可能存在偏见。
而当人们习惯于训练机器学习模型时,这些效应只会增长。模型会继承构建它们的人的偏见,并产生意想不到的有害结果,例如:
那么,我能对数据偏差做些什么呢?
克服决策中偏见的第一个步骤是熟悉最常见的数据偏差类型。为了帮助您开始,我们收集了六种最常见的数据偏差类型,以及一些推荐的缓解策略。
1. 确认偏见
您可能每天都遇到这种潜在的偏见。我们都喜欢正确,所以我们的大脑一直在寻找支持我们先验信念的证据。即使我们尽力对不同的想法持开放态度,我们的大脑也会悄悄地回到我们自己最初想法的安全和舒适区。这可以通过我们在搜索、解释或回忆信息方式上的偏见,无意识地发生,或者在有意识地选择性地关注支持我们论点的 the information 时发生。
确认偏见示例:社交媒体回声室
“我在 Facebook 上看到的,是 John 分享的”——听起来耳熟吗?社交媒体算法利用了人们天生的确认偏见。通过推广和放大与访客已有信念相符的内容,社交媒体平台强化了访客的先验信念,让他们更投入到平台中。用户看到他们已经相信的东西,并因此觉得他们的观点在现实中得到了支持。
如何避免确认偏见
- 在开始分析之前,记录下您的信念和假设。这将帮助您在审查结果时主动识别您的偏见。
- 通读所有呈现的数据和证据,但不要立即得出结论。抵制产生假设或收集额外信息来证实您信念的诱惑。
- 在分析结束时,重新审视您记录的信念和假设,并评估它们是否影响了您的发现。
2. 选择偏见
选择偏见发生在查看不能代表总体样本时。这可能是有机发生的,当处理少量数据时,或者当抽样方法并非真正随机时。
选择偏见示例:A/B 测试定价
一家初创公司想知道降低产品价格是否会带来更高的总收入。他们决定对产品进行一周的定价测试,但仅针对美国访问者进行测试。当他们将定价推广到世界其他地区时,他们惊讶地发现更广泛的受众行为与他们的样本不同。
如何避免选择偏见
- 使用随机化来确保您拥有一个代表性样本,而不是一个方便的样本。
- 确保样本在您想要控制的变量(例如,地理位置均匀分布)上代表总体。
3. 历史偏见
历史数据偏差发生在社会文化偏见和信念被镜像到系统化流程中时。当来自历史上存在偏见的数据源被用来训练机器学习模型时,这尤其具有挑战性——例如,如果手动系统赋予某些群体较差的信用评分,而您正在使用该数据来训练自动系统,那么自动系统将复制甚至可能放大原始系统的偏见。
历史偏见示例:词嵌入
2013 年,神经网络模型彻底改变了机器理解书面单词的方式。这项技术通过学习维基百科、谷歌新闻或 Reddit 等海量文本集,使计算机能够编码单词的语义含义。然而,我们已经看到一些例子,其中源自现有数据集的文本产生了与这些数据集中存在的偏见相似甚至放大的模型。例如,一个在维基百科上训练的机器学习模型产生了性别偏见的类比,如:男人:医生 :: 女人:护士,或男人:指挥官 :: 女人:教师。该模型通过学习海量的文本语料库,继承了社会固有的历史偏见,并产生了进一步强化这些偏见的工作。
如何避免历史偏见
- 承认并识别历史和当代数据源中的偏见。
- 为代表性不足的群体建立和培养包容性框架。
4. 幸存者偏差
人们更容易关注赢家而不是输家。如果您回想一下 2016 年奥运会上您最喜欢的比赛,您可能很难记起谁获得了银牌和铜牌。幸存者偏差使我们倾向于关注获胜者的特征,因为其他样本的可见性较低——这混淆了我们区分 相关性和因果关系 的能力。
幸存者偏差示例:过度依赖成功企业家的建议
听完像成功企业家那样的人讲述的商业故事后,很容易想都不想就遵循他们的建议。为什么?他们成功了。您甚至可能认为,成为一名成功的企业家关键是永远不要读完大学。
他们取得了令人印象深刻的成绩,这是真的,但有多少人遵循了同样的道路却失败了?我们很少关注那些默默无闻的失败企业家,但他们数量远多于成功者。这并不意味着我们不应该研究成功领导者的策略,但我们需要记住,决定哪些组织取得成功的变量还有很多。
如何避免幸存者偏差
- 不要过度关注幸存者。退一步,考虑成功和不成功的参与者所走的道路。
- 为故事的另一面寻找更多数据。
5. 可获得性偏见
数据的可获得性对我们看待世界的方式有很大影响——但并非所有数据都得到同等程度的调查和权衡。您是否曾因为看到一辆车窗被砸坏的车而想知道您社区的犯罪率是否有所增加?您看到了一个生动的线索,表明可能有什么事情正在发生,但由于您可能没有进一步调查犯罪统计数据,您的看法很可能基于立即可获得的信息。
可获得性偏见示例:创新狂热
一项突破性新技术的出现正在席卷全球。您在每个广告牌、新闻文章上都能看到它,并从同事那里听到它。当您遇到这个问题时,这项技术可以帮助您解决,这是您首先想到的,您会立即将其应用到您的新项目中。几周后,您的项目进展不顺利,您意识到一项更成熟的旧技术可能是一个更好的解决方案。但由于这项突破很容易出现在您的记忆中,您没有充分调查,最终不得不重新思考您的工作。
如何避免可获得性偏见
- 关注更大的趋势和模式,而不是生动的轶事性异常值。您生动的记忆可能只是例外而不是规则,只有进一步调查才能确定。
- 寻找不同的视角!新闻、媒体,以及您的团队、家人和朋友,在塑造这种自然捷径方面发挥着巨大作用,因为他们会更频繁地让您接触到他们认为对您重要需要记住和关注的事物。您可以通过 exercising curiosity 和主动深入挖掘可用信息(即使获取起来更困难)来理解一个给定的情况,从而抵消可获得性偏见。
6. 异常值偏见
平均值是隐藏令人不舒服的真相的好地方。有些数据通过平均值来可视化很方便,但这种简单的操作隐藏了异常值和异常的影响,并扭曲了我们的观察。
异常值偏见示例:查看 KPI 的平均值
一家初创公司想确保他们的营销网站感觉快速且响应迅速。他们决定跟踪平均延迟时间,以确保他们的网站继续快速加载。在几个月内平均延迟值大致保持一致后,他们开始注意到一些最重要页面的参与度下降。当他们进一步调查时,他们意识到这些页面的延迟时间已飙升。他们网站的平均延迟时间仍然是乐观的,因为在许多其他表现良好的页面中,这些页面是一个异常值。
如何避免异常值偏见
- 当平均值告诉您一切看起来都很好时,是时候深入挖掘了。
- 查看分布的整个范围
- 使用中位数而不是平均值
- 查找并调查异常值
最后的思考:数据偏见
处理我们的认知偏差是使用和学习数据的重要组成部分。尽管数据帮助我们以前所未有的方式看待世界——但认识到并采取预防措施来应对数据偏见,是利用数据做出更明智决定的重要一步。
祝好,
Metabase 团队