Chevron Left

查看所有社区故事

A/B 测试清单

2024年9月22日

作者

Olga Berezovsky

MyFitnessPal

photo of Olga Berezovsky

Olga Berezovsky,MyFitnessPal的高级数据分析经理。出生于乌克兰,现居旧金山。她是《数据分析杂志》(Data Analysis Journal) 的撰稿人,也是PyLadies、Women Who Code和Women in Analytics的成员/志愿者。她在大数据行业拥有丰富的经验——特别是在数据采集、转换和分析方面——并在构建定量和定性用户画像分析以揭示用户洞察和行为方面拥有深厚的专业知识。

如果您曾尝试进行A/B测试,却发现自己陷入了数十个指南的泥潭,您并不孤单。市面上的材料应有尽有,但有时您只需要一个简单、实用的A/B测试清单——能够告诉您该做什么、避免什么以及关键术语的真正含义。

以下是一个简短的指南,涵盖了您运行A/B测试所需的基本信息——步骤、概念和必须了解的术语。它更侧重于初级分析师,但也可作为快速查找如显著性计算器等资源的参考。

所以,请将这份清单放在手边,并根据需要重读。

✅ A/B 测试清单:分步指南

您能测试它吗?

您不能测试所有的小细节。新体验或新产品发布不能通过A/B测试(请阅读——如何衡量产品采用情况)。潜在偏差——新颖性效应或厌恶改变。

制定假设

您为什么要进行实验?投资回报率是多少?现在是进行测试的好时机吗?考虑季节性、新版本发布、未解决的bug等。设定您期望的比率——这就是您的最小可检测效应(MDE)。您为什么需要MDE?这是对照组和变异组之间可接受的最小差异。如果变异组比对照组好0.0001%,您仍然想运行测试吗?是否值得投入成本和时间?

确定您的指标集

对于A/B分析,我使用一套3个指标

  • 成功指标;
  • 生态系统指标(公司KPI);
  • 权衡指标;

更多描述请参见——如何选择正确的指标

计算样本量

  • 设定您的显著性水平、置信区间和统计功效。
  • 您的分组实验大小应相同。
  • 您的样本应随机分布。识别流量、设备、回访用户等。与工程团队合作进行测试,并确保随机化算法按预期工作(哈希、聚类、样本分层?)。
  • 确保没有引入其他正在进行的测试带来的偏差。

运行测试

一直运行直到达到显著性。监控测试时间表和事件。

评估结果

  • 进行健全性检查。对照组指标和转化率应与基线匹配。如果不匹配,则要质疑测试设置。
  • 检查样本方差和分布。
  • 进行抽查。选择对照组和变异组样本中的几个用户,检查他们是否随机、没有与其他测试重叠,并且符合测试要求。
  • 如果结果与预期不符,请考虑潜在的偏差——新颖性效应、学习效应、网络效应。

得出结论

向产品负责人提供关于下一步行动的建议。


运行A/B测试时需要记住的事项

  • 首先运行A/A测试。它有助于您检查软件、外部因素和自然方差。您需要了解样本方差来估计显著性水平和统计功效。
  • 不要选择过于敏感(例如浏览量)或过于稳健(例如第7天或第30天留存率)的指标。它们没有帮助,并且容易误导您。最佳测试指标应能显示结果的变化,并且在其他事件发生时不会大幅波动。
  • 不要进行过长时间的实验,否则您可能会遇到数据污染——当多个设备、cookie和其他外部因素影响您的结果时发生的效应。
  • 也不要进行时间过短的实验,否则您可能会得到假阳性(均值回归)。换句话说,当一个变量最初很极端,但随后趋近于平均值。
  • 在引入新变更时,对较小的样本进行较长时间的测试,以消除新颖性效应或学习效应偏差。

📢 使用此计算器此计算器来确定您的实验所需的样本量。
📢 使用此计算器来评估您的测试显著性和结果。

A/B测试关键术语

要进行A/B测试,您可以考虑零假设检验,并应用以下术语

  • P值——假设零假设为真,看到特定结果的概率是多少?如果数据落在“预期之外”的区域,则拒绝零假设。
  • 统计显著性(或显著性水平,alpha)是在不存在效应时看到效应的概率(假阳性)。
  • 统计功效(或1-beta)是在效应存在时看到效应的概率。
  • 置信区间是允许的错误次数或估计可靠性的衡量标准:CI越小,结果越准确。
  • z分数是与均值相差的标准差数。请在我每周的通讯和建议栏目“数据分析杂志”中阅读更多关于数据分析的指南和教程。

在我每周的通讯和建议栏目——数据分析杂志中阅读更多关于数据分析的指南和教程。

作者

Olga Berezovsky

MyFitnessPal

photo of Olga Berezovsky

Olga Berezovsky,MyFitnessPal的高级数据分析经理。出生于乌克兰,现居旧金山。她是《数据分析杂志》(Data Analysis Journal) 的撰稿人,也是PyLadies、Women Who Code和Women in Analytics的成员/志愿者。她在大数据行业拥有丰富的经验——特别是在数据采集、转换和分析方面——并在构建定量和定性用户画像分析以揭示用户洞察和行为方面拥有深厚的专业知识。

© . This site is unofficial and not affiliated with Metabase, Inc.