关于运行 A/B 测试,已经有很多优秀的资料,但要搜索到合适的解释基本问题的内容却非常困难。以下是一份简短指南,仅涵盖您需要的基本信息——步骤、概念和必知术语。它更侧重于刚开始进行实验的初级分析师,但也可以用作快速提取信息(如显著性计算器)的资源。因此,请将此列表放在手边,并在需要时重新阅读。
进行产品实验的步骤
可以测试吗?
您无法对每件小事都进行 A/B 测试。新体验或新产品发布不能通过 A/B 测试运行(阅读 - 如何衡量产品采用率)。潜在偏差 - 新奇效应 或 求新厌旧。
制定假设
为什么要运行实验?投资回报率是多少?现在是运行测试的好时机吗?考虑季节性、新版本发布、未解决的错误等。设置您期望的比率——这是您的 最小可检测效应 (MDE)。为什么您需要 MDE?这是对照组和变体组之间最小的可接受差异。如果变体组比对照组好 0.0001%,您还想运行测试吗?这值得成本和时间吗?
确定您的指标集
对于 A/B 分析,我使用一组 3 个指标
- 成功指标;
- 生态系统指标(公司 KPI);
- 权衡指标;
此处有更多描述 - 如何选择正确的指标。
计算样本量
- 设置您的显著性水平、置信区间和功效。
- 您的实验组大小应相同。
- 您的样本应随机分布。识别流量、设备、回访用户等。与工程团队合作进行测试,并确保随机化算法按预期工作(哈希、聚类、样本分层?)。
- 确保其他正在运行的测试不会引入偏差。
运行测试
运行测试直到达到显著性水平。监控测试时间线和事件。
评估结果
- 运行健全性检查。对照组指标和转化率应与基线匹配。如果它们不匹配,请质疑测试设置。
- 检查样本方差和分布。
- 运行抽查。从对照组和变体组样本中挑选一些用户并检查他们,以确保他们是随机的,不与其他测试重叠,并且满足测试要求。
- 如果结果不是您所期望的,请考虑潜在的偏差——新奇效应、学习效应、网络效应。
得出结论
向产品负责人提供关于后续步骤的建议。
需要记住的事情
- 首先运行 A/A 测试。它可以帮助您检查软件、外部因素和自然方差。您需要知道样本方差才能估计显著性水平和统计功效。
- 不要选择过于敏感(浏览量)或过于稳健(第 7 天或第 30 天留存率)的指标。它们没有帮助,并且往往会误导您。最佳测试指标应显示结果的变化,并且在其他事件发生时不会波动太大。
- 不要运行实验时间过长,因为您可能会遇到数据污染——当多个设备、Cookie 和其他外部因素影响您的结果时,就会发生这种情况。
- 也不要运行实验时间过短,因为您可能会得到假阳性结果(均值回归)。换句话说,当一个变量最初是极端的,但随后会更接近平均值。
- 在引入新更改时,请在较小的样本上运行测试较长时间,以消除新奇或学习效应偏差。
📢 使用 此计算器 或 这个计算器 来确定您的实验所需的样本量。
📢 使用 此计算器 来评估您的测试显著性和结果。
统计术语
要进行 A/B 测试,您可以考虑零假设检验并应用以下术语
- P 值 - 假设零假设为真,看到特定结果的概率是多少?如果数据在“非预期”区域,我们拒绝零假设。
- 统计显著性(或显著性水平,α)是当不存在效应时看到效应的概率(假阳性)。
- 统计功效(或 1-β)是当效应确实存在时看到效应的概率。
- 置信区间是允许的误差数量或估计可靠性的度量:CI 越小,结果越准确。
- z 分数是与平均值的标准差的数量。在我的每周新闻简报和建议专栏“数据分析杂志”中阅读更多关于数据分析的指南和教程。
在我的每周新闻简报和建议专栏中阅读更多关于数据分析的指南和教程 - 数据分析杂志。