关于进行A/B测试的资料已经写了很多,但要在其中找到对基本问题的正确解释却可能非常困难。以下是一个简要指南,仅涵盖您所需的必要信息 - 步骤、概念和必备术语。它更适用于刚开始进行实验的初级分析师,但也可以作为快速查找如显著性计算器等资源的参考资料。所以请保留这个列表,并在需要时重新阅读。
进行产品实验的步骤
你可以测试它吗?
你不能对每一件小事都进行A/B测试。新经验或新产品发布不能通过A/B测试(阅读 - 如何衡量产品采用度)。潜在偏差 - 新颖性效应或改变厌恶。
制定假设
你为什么要进行实验?投资回报率是多少?现在是进行测试的好时机吗?考虑季节性、新版本发布、未修复的bug等。设定你期望的比率 - 这就是你的最小可检测效应(MDE)。为什么你需要MDE?这是控制和变体之间可以接受的最小差异。如果变体比控制版好0.0001%,你还会进行测试吗?这值得成本和时间吗?
确定你的指标集
对于A/B分析,我使用一组3个指标
- 成功指标;
- 生态系统指标(公司KPI);
- 权衡指标;
更多描述请见 - 如何选择正确的指标。
计算样本量
- 设定你的显著性、置信区间和效力。
- 你的实验组大小应该相同。
- 你的样本应该是随机分布的。识别流量、设备、回头用户等。与工程团队合作进行测试,并确保随机化算法按预期工作(哈希、聚类、样本分层?)。
- 确保没有其他测试引入偏差。
运行测试
进行到达到显著性。监控测试时间和事件。
评估结果
- 运行合理性检查。控制指标和转换率应该与基线匹配。如果不匹配,质疑测试设置。
- 检查样本方差和分布。
- 进行抽查。从控制和变体样本中挑选几个用户进行检查,以确保他们是随机的,没有与其他测试重叠,并且符合测试要求。
- 如果结果不是你预期的,考虑潜在的偏差 - 新颖性效应、学习效应、网络效应。
得出结论
为产品负责人提供下一步行动的建议。
注意事项
- 首先运行A/A测试。这有助于你检查软件、外部因素和自然方差。你需要知道样本方差来估计显著性水平和统计效力。
- 不要选择太敏感(浏览量)或太稳健(第7天或第30天留存率)的指标。它们没有帮助,往往会使你误入歧途。最佳的测试指标会显示结果的变化,并且在其他事件发生时不会波动很大。
- 不要让实验进行得太久,否则你可能会遇到数据污染 - 多个设备、cookie和其他外部因素影响你的结果。
- 也不要让实验进行得太短,否则你可能会得到假阳性(回归到平均值)。换句话说,当一个变量最初极端,但后来又接近平均值。
- 在引入新的变更时,在更小的样本上运行测试更长时间,以消除新颖性或学习效应偏差。
📢 使用此计算器或此计算器来确定您实验所需的样本量。
📢 使用此计算器来评估测试的重要性和结果。
统计术语
要着手进行A/B测试,您可以将零假设检验视为参考,并应用以下术语:
- P值 - 假设零假设成立,观察到特定结果的可能性是多少?如果数据位于“非预期”区域,我们拒绝零假设。
- 统计显著性(或显著性水平,α)是观察到效应但效应实际不存在(假阳性)的概率。
- 统计功效(或1-β)是效应实际存在时观察到效应的概率。
- 置信区间是允许的错误数量或估计可靠性的测量:置信区间越小,结果越准确。
- z分数是平均值的标准差数。在我的每周通讯和咨询专栏——数据分析杂志中阅读更多有关数据分析的指南和教程。
在我的每周通讯和咨询专栏——数据分析杂志中阅读更多有关数据分析的指南和教程。