如果您曾尝试进行 A/B 测试,却发现自己被无数指南淹没,那么您并非孤单一人。市面上的资料数不胜数,但有时您只需要一个简单实用的 A/B 测试清单——它会告诉您该做什么、该避免什么,以及关键术语的实际含义。
以下是一份简明指南,仅涵盖您进行 A/B 测试所需的基本信息——步骤、概念和必备术语。它主要面向刚开始进行实验的初级分析师,但也可以作为快速查找诸如显著性计算器等资源的参考。
请务必牢记这份清单,并根据需要随时重温。
✅ A/B 测试清单:分步指南
能否进行测试?
并非所有小细节都能进行 A/B 测试。新体验或新产品发布无法通过 A/B 测试来运行(阅读 - 如何衡量产品采用率)。潜在偏差——新奇效应 或变更规避。
制定假设
为什么必须进行这项实验?投资回报率是多少?现在是进行测试的好时机吗?请考虑季节性、新版本发布、未解决的错误等因素。设置您预期的比率——这便是您的 最小可检测效应 (MDE)。为什么需要 MDE?这是对照组和变体组之间可接受的最小差异。如果变体组比对照组好 0.0001%,您还想进行测试吗?这值得投入成本和时间吗?
确定您的指标集
进行 A/B 分析时,我使用 3 个指标集
- 成功指标;
- 生态系统指标(公司 KPI);
- 权衡指标;
更多详情请参阅此处 - 如何选择正确的指标。
计算样本量
- 设置您的显著性、置信区间和功效。
- 您的实验组大小应保持一致。
- 您的样本应随机分布。识别流量、设备、回访用户等。与工程团队合作进行测试,确保随机化算法按预期工作(哈希、聚类、样本分层?)。
- 确保没有其他正在运行的测试引入偏差。
运行测试
一直运行直到达到显著性。监控测试时间线和事件。
评估结果
- 进行健全性检查。对照组指标和转化率应与基线匹配。如果不匹配,请质疑测试设置。
- 检查样本方差和分布。
- 进行抽查。从对照组和变体组样本中抽取一些用户进行检查,以确保他们是随机的、不与其他测试重叠,并且符合测试要求。
- 如果结果不符合预期,请考虑潜在的偏差——新奇效应、学习效应、网络效应。
得出结论
向产品负责人提供下一步建议。
进行 A/B 测试时需要记住的事项
- 首先运行 A/A 测试。它有助于您检查软件、外部因素和自然方差。您需要了解样本方差来估算显著性水平和统计功效。
- 不要选择过于敏感(如:浏览量)或过于稳定(如:第 7 天或第 30 天留存率)的指标。它们没有帮助,并且容易误导您。最佳测试指标应能显示结果变化,并且在其他事件发生时不会有太大波动。
- 不要让实验运行时间过长,否则可能会出现数据污染——即多个设备、Cookie 和其他外部因素影响您的结果的效应。
- 实验运行时间也不宜过短,否则可能会出现假阳性(均值回归)。换句话说,当一个变量最初极端但随后趋向平均值时。
- 引入新变更时,请在较小的样本上运行更长时间的测试,以消除新奇效应或学习效应偏差。
📢 使用 此计算器 或 此计算器 来确定您的实验所需样本量。
📢 使用 此计算器 来评估您的测试显著性和结果。
A/B 测试关键术语
进行 A/B 测试时,您可以考虑零假设检验并应用以下术语
- P 值 - 假设零假设为真,看到特定结果的概率是多少?如果数据位于“非预期”区域,我们则拒绝零假设。
- 统计显著性(或显著性水平,alpha)是指在没有效果存在的情况下看到效果的概率(假阳性)。
- 统计功效(或 1-beta)是指在效果确实存在的情况下看到效果的概率。
- 置信区间 是允许误差的数量或估计可靠性的度量:置信区间越小,结果越准确。
- z-分数 是与均值的标准差数量。在我的每周时事通讯和建议专栏《数据分析杂志》中阅读更多关于数据分析的指南和教程。
在我的每周时事通讯和建议专栏中阅读更多关于数据分析的指南和教程 - Data Analysis Journal。