如果您曾经尝试运行A/B测试却发现自己被数十份指南所困扰,那么您并不孤单。市面上不乏相关资料,但有时您需要的只是一个简单实用的A/B测试清单——它能告诉您该做什么,该避免什么,以及关键术语的实际含义。
以下是一个简短的指南,仅涵盖运行A/B测试所需的基本信息——步骤、概念和必知术语。它主要面向刚开始进行实验的初级分析师,但也可以作为快速查找统计显著性计算器等资源的参考。
因此,请将此清单放在手边,并根据需要反复阅读。
✅ A/B测试清单:分步指南
你能测试它吗?
您不能对所有小细节都进行A/B测试。新的体验或新产品发布无法通过A/B测试运行(阅读 - 如何衡量产品采纳)。潜在偏差 - 新奇效应或变化厌恶。
制定假设
您为什么要进行这个实验?投资回报率是多少?现在是进行测试的好时机吗?考虑季节性、新版本发布、未解决的错误等。设置您期望的增长率——这就是您的最小可检测效应(MDE)。为什么您需要MDE?这是对照组和变体组之间最小可接受的差异。如果变体组比对照组好0.0001%,您还想进行测试吗?这值得投入成本和时间吗?
确定您的指标集
对于A/B分析,我使用一套3个指标
- 成功指标;
- 生态系统指标(公司KPI);
- 权衡指标;
更多内容请参见此处 - 如何选择正确的指标。
计算样本量
- 设置您的显著性、置信区间和功效。
- 您的实验组大小应相同。
- 您的样本应随机分布。识别流量、设备、回访用户等。与工程团队合作进行测试,确保随机化算法按预期工作(哈希、聚类、样本分层?)。
- 确保没有其他正在运行的测试引入偏差。
运行测试
持续运行直到达到显著性。监控测试时间线和事件。
评估结果
- 进行合理性检查。对照组指标和转化率应与基线匹配。如果不匹配,请质疑测试设置。
- 检查样本方差和分布。
- 进行抽查。从对照组和变体样本中挑选一些用户进行检查,确保他们是随机的,不与其他测试重叠,并符合测试要求。
- 如果结果与您预期不符,请思考潜在的偏差——新奇效应、学习效应、网络效应。
得出结论
向产品负责人提供下一步建议。
运行A/B测试时需要记住的事情
- 首先运行A/A测试。它能帮助您检查软件、外部因素和自然方差。您需要了解样本方差才能估计显著性水平和统计功效。
- 不要选择过于敏感(浏览量)或过于稳健(第7天或第30天留存率)的指标。它们没有帮助,并且容易误导您。最佳测试指标应显示结果的变化,并且在其他事件发生时波动不大。
- 不要将实验运行时间过长,因为您可能会遇到数据污染——当多个设备、Cookie和其他外部因素影响您的结果时。
- 也不要将实验运行时间过短,因为您可能会得到假阳性(回归平均值)。换句话说,当变量最初极端,但随后接近平均值时。
- 引入新更改时,请在较小的样本上运行测试更长时间,以消除新奇效应或学习效应偏差。
📢使用此计算器或此计算器来确定实验所需的样本量。
📢使用此计算器来评估您的测试显著性和结果。
A/B测试关键术语
进行A/B测试时,您可以考虑零假设检验并应用以下术语:
- P值 - 假设零假设为真,看到特定结果的概率是多少?如果数据位于“不期望”区域,我们拒绝零假设。
- 统计显著性(或显著性水平,alpha)是当效果不存在时看到效果的概率(假阳性)。
- 统计功效(或1-beta)是当效果确实存在时看到效果的概率。
- 置信区间是允许的误差数量或估计可靠性的度量:置信区间越小,结果越准确。
- Z分数是与平均值的标准差数量。在我的每周时事通讯和建议专栏《数据分析期刊》中阅读更多关于数据分析的指南和教程。
在我的每周新闻简报和建议专栏《数据分析期刊》中阅读更多关于数据分析的指南和教程。