如果您曾尝试进行A/B测试,却发现自己陷入了数十个指南的泥潭,您并不孤单。市面上的材料应有尽有,但有时您只需要一个简单、实用的A/B测试清单——能够告诉您该做什么、避免什么以及关键术语的真正含义。
以下是一个简短的指南,涵盖了您运行A/B测试所需的基本信息——步骤、概念和必须了解的术语。它更侧重于初级分析师,但也可作为快速查找如显著性计算器等资源的参考。
所以,请将这份清单放在手边,并根据需要重读。
✅ A/B 测试清单:分步指南
您能测试它吗?
您不能测试所有的小细节。新体验或新产品发布不能通过A/B测试(请阅读——如何衡量产品采用情况)。潜在偏差——新颖性效应或厌恶改变。
制定假设
您为什么要进行实验?投资回报率是多少?现在是进行测试的好时机吗?考虑季节性、新版本发布、未解决的bug等。设定您期望的比率——这就是您的最小可检测效应(MDE)。您为什么需要MDE?这是对照组和变异组之间可接受的最小差异。如果变异组比对照组好0.0001%,您仍然想运行测试吗?是否值得投入成本和时间?
确定您的指标集
对于A/B分析,我使用一套3个指标
- 成功指标;
- 生态系统指标(公司KPI);
- 权衡指标;
更多描述请参见——如何选择正确的指标。
计算样本量
- 设定您的显著性水平、置信区间和统计功效。
- 您的分组实验大小应相同。
- 您的样本应随机分布。识别流量、设备、回访用户等。与工程团队合作进行测试,并确保随机化算法按预期工作(哈希、聚类、样本分层?)。
- 确保没有引入其他正在进行的测试带来的偏差。
运行测试
一直运行直到达到显著性。监控测试时间表和事件。
评估结果
- 进行健全性检查。对照组指标和转化率应与基线匹配。如果不匹配,则要质疑测试设置。
- 检查样本方差和分布。
- 进行抽查。选择对照组和变异组样本中的几个用户,检查他们是否随机、没有与其他测试重叠,并且符合测试要求。
- 如果结果与预期不符,请考虑潜在的偏差——新颖性效应、学习效应、网络效应。
得出结论
向产品负责人提供关于下一步行动的建议。
运行A/B测试时需要记住的事项
- 首先运行A/A测试。它有助于您检查软件、外部因素和自然方差。您需要了解样本方差来估计显著性水平和统计功效。
- 不要选择过于敏感(例如浏览量)或过于稳健(例如第7天或第30天留存率)的指标。它们没有帮助,并且容易误导您。最佳测试指标应能显示结果的变化,并且在其他事件发生时不会大幅波动。
- 不要进行过长时间的实验,否则您可能会遇到数据污染——当多个设备、cookie和其他外部因素影响您的结果时发生的效应。
- 也不要进行时间过短的实验,否则您可能会得到假阳性(均值回归)。换句话说,当一个变量最初很极端,但随后趋近于平均值。
- 在引入新变更时,对较小的样本进行较长时间的测试,以消除新颖性效应或学习效应偏差。
📢 使用此计算器或此计算器来确定您的实验所需的样本量。
📢 使用此计算器来评估您的测试显著性和结果。
A/B测试关键术语
要进行A/B测试,您可以考虑零假设检验,并应用以下术语
- P值——假设零假设为真,看到特定结果的概率是多少?如果数据落在“预期之外”的区域,则拒绝零假设。
- 统计显著性(或显著性水平,alpha)是在不存在效应时看到效应的概率(假阳性)。
- 统计功效(或1-beta)是在效应存在时看到效应的概率。
- 置信区间是允许的错误次数或估计可靠性的衡量标准:CI越小,结果越准确。
- z分数是与均值相差的标准差数。请在我每周的通讯和建议栏目“数据分析杂志”中阅读更多关于数据分析的指南和教程。
在我每周的通讯和建议栏目——数据分析杂志中阅读更多关于数据分析的指南和教程。