A/B 测试清单

关于运行 A/B 测试，已经有很多优秀的资料，但要搜索到合适的解释基本问题的内容却非常困难。以下是一份简短指南，仅涵盖您需要的基本信息——步骤、概念和必知术语。它更侧重于刚开始进行实验的初级分析师，但也可以用作快速提取信息（如显著性计算器）的资源。因此，请将此列表放在手边，并在需要时重新阅读。

进行产品实验的步骤

您无法对每件小事都进行 A/B 测试。新体验或新产品发布不能通过 A/B 测试运行（阅读 - 如何衡量产品采用率）。潜在偏差 - 新奇效应或求新厌旧。

为什么要运行实验？投资回报率是多少？现在是运行测试的好时机吗？考虑季节性、新版本发布、未解决的错误等。设置您期望的比率——这是您的最小可检测效应 (MDE)。为什么您需要 MDE？这是对照组和变体组之间最小的可接受差异。如果变体组比对照组好 0.0001%，您还想运行测试吗？这值得成本和时间吗？

对于 A/B 分析，我使用一组 3 个指标

运行测试直到达到显著性水平。监控测试时间线和事件。

向产品负责人提供关于后续步骤的建议。

首先运行 A/A 测试。它可以帮助您检查软件、外部因素和自然方差。您需要知道样本方差才能估计显著性水平和统计功效。
不要选择过于敏感（浏览量）或过于稳健（第 7 天或第 30 天留存率）的指标。它们没有帮助，并且往往会误导您。最佳测试指标应显示结果的变化，并且在其他事件发生时不会波动太大。
不要运行实验时间过长，因为您可能会遇到数据污染——当多个设备、Cookie 和其他外部因素影响您的结果时，就会发生这种情况。
也不要运行实验时间过短，因为您可能会得到假阳性结果（均值回归）。换句话说，当一个变量最初是极端的，但随后会更接近平均值。
在引入新更改时，请在较小的样本上运行测试较长时间，以消除新奇或学习效应偏差。

📢 使用此计算器或这个计算器来确定您的实验所需的样本量。
📢 使用此计算器来评估您的测试显著性和结果。

要进行 A/B 测试，您可以考虑零假设检验并应用以下术语

在我的每周新闻简报和建议专栏中阅读更多关于数据分析的指南和教程 - 数据分析杂志。