A/B 测试清单

如果您曾尝试进行A/B测试，却发现自己陷入了数十个指南的泥潭，您并不孤单。市面上的材料应有尽有，但有时您只需要一个简单、实用的A/B测试清单——能够告诉您该做什么、避免什么以及关键术语的真正含义。

以下是一个简短的指南，涵盖了您运行A/B测试所需的基本信息——步骤、概念和必须了解的术语。它更侧重于初级分析师，但也可作为快速查找如显著性计算器等资源的参考。

所以，请将这份清单放在手边，并根据需要重读。

✅ A/B 测试清单：分步指南

您能测试它吗？

您不能测试所有的小细节。新体验或新产品发布不能通过A/B测试（请阅读——如何衡量产品采用情况）。潜在偏差——新颖性效应或厌恶改变。

制定假设

您为什么要进行实验？投资回报率是多少？现在是进行测试的好时机吗？考虑季节性、新版本发布、未解决的bug等。设定您期望的比率——这就是您的最小可检测效应（MDE）。您为什么需要MDE？这是对照组和变异组之间可接受的最小差异。如果变异组比对照组好0.0001%，您仍然想运行测试吗？是否值得投入成本和时间？

确定您的指标集

对于A/B分析，我使用一套3个指标

成功指标；
生态系统指标（公司KPI）；
权衡指标；

更多描述请参见——如何选择正确的指标。

计算样本量

设定您的显著性水平、置信区间和统计功效。
您的分组实验大小应相同。
您的样本应随机分布。识别流量、设备、回访用户等。与工程团队合作进行测试，并确保随机化算法按预期工作（哈希、聚类、样本分层？）。
确保没有引入其他正在进行的测试带来的偏差。

运行测试

一直运行直到达到显著性。监控测试时间表和事件。

评估结果

进行健全性检查。对照组指标和转化率应与基线匹配。如果不匹配，则要质疑测试设置。
检查样本方差和分布。
进行抽查。选择对照组和变异组样本中的几个用户，检查他们是否随机、没有与其他测试重叠，并且符合测试要求。
如果结果与预期不符，请考虑潜在的偏差——新颖性效应、学习效应、网络效应。

得出结论

向产品负责人提供关于下一步行动的建议。

运行A/B测试时需要记住的事项

首先运行A/A测试。它有助于您检查软件、外部因素和自然方差。您需要了解样本方差来估计显著性水平和统计功效。
不要选择过于敏感（例如浏览量）或过于稳健（例如第7天或第30天留存率）的指标。它们没有帮助，并且容易误导您。最佳测试指标应能显示结果的变化，并且在其他事件发生时不会大幅波动。
不要进行过长时间的实验，否则您可能会遇到数据污染——当多个设备、cookie和其他外部因素影响您的结果时发生的效应。
也不要进行时间过短的实验，否则您可能会得到假阳性（均值回归）。换句话说，当一个变量最初很极端，但随后趋近于平均值。
在引入新变更时，对较小的样本进行较长时间的测试，以消除新颖性效应或学习效应偏差。

📢 使用此计算器或此计算器来确定您的实验所需的样本量。
📢 使用此计算器来评估您的测试显著性和结果。

A/B测试关键术语

要进行A/B测试，您可以考虑零假设检验，并应用以下术语

P值——假设零假设为真，看到特定结果的概率是多少？如果数据落在“预期之外”的区域，则拒绝零假设。
统计显著性（或显著性水平，alpha）是在不存在效应时看到效应的概率（假阳性）。
统计功效（或1-beta）是在效应存在时看到效应的概率。
置信区间是允许的错误次数或估计可靠性的衡量标准：CI越小，结果越准确。
z分数是与均值相差的标准差数。请在我每周的通讯和建议栏目“数据分析杂志”中阅读更多关于数据分析的指南和教程。

在我每周的通讯和建议栏目——数据分析杂志中阅读更多关于数据分析的指南和教程。

商业智能

嵌入式分析

文档

学习