Chevron Left

查看所有社区故事

A/B 测试清单

2024年9月22日

作者

Olga Berezovsky

MyFitnessPal

photo of Olga Berezovsky

Olga Berezovsky,MyFitnessPal高级数据分析经理。出生于乌克兰,现居旧金山。她是《数据分析期刊》的撰稿人,也是PyLadies、Women Who Code和Women in Analytics的成员/志愿者。她在大数据行业拥有丰富的经验——特别是在数据获取、转换和分析方面——并在构建定量和定性用户画像分析方面拥有深厚的专业知识,能够揭示用户洞察和行为。

如果您曾经尝试运行A/B测试却发现自己被数十份指南所困扰,那么您并不孤单。市面上不乏相关资料,但有时您需要的只是一个简单实用的A/B测试清单——它能告诉您该做什么,该避免什么,以及关键术语的实际含义。

以下是一个简短的指南,仅涵盖运行A/B测试所需的基本信息——步骤、概念和必知术语。它主要面向刚开始进行实验的初级分析师,但也可以作为快速查找统计显著性计算器等资源的参考。

因此,请将此清单放在手边,并根据需要反复阅读。

✅ A/B测试清单:分步指南

你能测试它吗?

您不能对所有小细节都进行A/B测试。新的体验或新产品发布无法通过A/B测试运行(阅读 - 如何衡量产品采纳)。潜在偏差 - 新奇效应或变化厌恶。

制定假设

您为什么要进行这个实验?投资回报率是多少?现在是进行测试的好时机吗?考虑季节性、新版本发布、未解决的错误等。设置您期望的增长率——这就是您的最小可检测效应(MDE)。为什么您需要MDE?这是对照组和变体组之间最小可接受的差异。如果变体组比对照组好0.0001%,您还想进行测试吗?这值得投入成本和时间吗?

确定您的指标集

对于A/B分析,我使用一套3个指标

  • 成功指标;
  • 生态系统指标(公司KPI);
  • 权衡指标;

更多内容请参见此处 - 如何选择正确的指标

计算样本量

  • 设置您的显著性、置信区间和功效。
  • 您的实验组大小应相同。
  • 您的样本应随机分布。识别流量、设备、回访用户等。与工程团队合作进行测试,确保随机化算法按预期工作(哈希、聚类、样本分层?)。
  • 确保没有其他正在运行的测试引入偏差。

运行测试

持续运行直到达到显著性。监控测试时间线和事件。

评估结果

  • 进行合理性检查。对照组指标和转化率应与基线匹配。如果不匹配,请质疑测试设置。
  • 检查样本方差和分布。
  • 进行抽查。从对照组和变体样本中挑选一些用户进行检查,确保他们是随机的,不与其他测试重叠,并符合测试要求。
  • 如果结果与您预期不符,请思考潜在的偏差——新奇效应、学习效应、网络效应。

得出结论

向产品负责人提供下一步建议。


运行A/B测试时需要记住的事情

  • 首先运行A/A测试。它能帮助您检查软件、外部因素和自然方差。您需要了解样本方差才能估计显著性水平和统计功效。
  • 不要选择过于敏感(浏览量)或过于稳健(第7天或第30天留存率)的指标。它们没有帮助,并且容易误导您。最佳测试指标应显示结果的变化,并且在其他事件发生时波动不大。
  • 不要将实验运行时间过长,因为您可能会遇到数据污染——当多个设备、Cookie和其他外部因素影响您的结果时。
  • 也不要将实验运行时间过短,因为您可能会得到假阳性(回归平均值)。换句话说,当变量最初极端,但随后接近平均值时。
  • 引入新更改时,请在较小的样本上运行测试更长时间,以消除新奇效应或学习效应偏差。

📢使用此计算器此计算器来确定实验所需的样本量。
📢使用此计算器来评估您的测试显著性和结果。

A/B测试关键术语

进行A/B测试时,您可以考虑零假设检验并应用以下术语:

  • P值 - 假设零假设为真,看到特定结果的概率是多少?如果数据位于“不期望”区域,我们拒绝零假设。
  • 统计显著性(或显著性水平,alpha)是当效果不存在时看到效果的概率(假阳性)。
  • 统计功效(或1-beta)是当效果确实存在时看到效果的概率。
  • 置信区间是允许的误差数量或估计可靠性的度量:置信区间越小,结果越准确。
  • Z分数是与平均值的标准差数量。在我的每周时事通讯和建议专栏《数据分析期刊》中阅读更多关于数据分析的指南和教程。

在我的每周新闻简报和建议专栏《数据分析期刊》中阅读更多关于数据分析的指南和教程。

作者

Olga Berezovsky

MyFitnessPal

photo of Olga Berezovsky

Olga Berezovsky,MyFitnessPal高级数据分析经理。出生于乌克兰,现居旧金山。她是《数据分析期刊》的撰稿人,也是PyLadies、Women Who Code和Women in Analytics的成员/志愿者。她在大数据行业拥有丰富的经验——特别是在数据获取、转换和分析方面——并在构建定量和定性用户画像分析方面拥有深厚的专业知识,能够揭示用户洞察和行为。

© . This site is unofficial and not affiliated with Metabase, Inc.