六大环节,教你如何从0到1搭建一场A/B测试

随着“增长黑客”概念的普及,A/B测试作为“数据驱动增长”的最佳实践受到了国内外许多公司的青睐。许多童鞋想了解A/B测试,但他们不知道从哪里开始。基于A/B测试的六个环节,本文作者分享了小白对A/B测试指南的介绍。建议阅读并分享对此感兴趣的童鞋

随着“增长黑客”概念的普及,A/B测试作为“数据驱动增长”的最佳实践受到了国内外许多公司的青睐。许多童鞋想了解A/B测试,但他们不知道从哪里开始。基于A/B测试的六个环节,本文作者分享了小白对A/B测试指南的介绍。建议阅读并分享对此感兴趣的童鞋~

六大环节,教你如何从0到1搭建一场A/B测试

随着“增长黑客”概念的普及,A/B测试作为“数据驱动增长”的最佳实践受到了国内外许多公司的青睐。

A/B测试的目的是通过科学的测试设计和高效准确的流量分割算法,获得具有代表性的测试结论,并将该结论推广到所有流量中。目前,A/B测试已广泛应用于产品交互设计、推荐算法、运营策略制定等方面,为公司在最优方案的判断和决策过程中提供了强有力的数据支持。

由于A/B测试设置的市场信息是零散的,没有系统的分类,并且缺乏标准化和标准化的A/B测试工具,我们总结并沉淀了六个环节,包括假设构建、评估指标确定、设计测试、操作测试和数据获取、结果分析和最终决策,基于数百次A/B测试的服务和交付经验,为客户带来价值。

六大环节,教你如何从0到1搭建一场A/B测试

A/B检验的核心原则是假设检验。先假设,然后根据数据测试测试组和对照组的结果,以辅助决策。一般情况下,假设有对。如果我们认为测试组和对照组的结果没有显著差异,可以称为零假设(H0);相反,它被称为替代假设(H1)。

在测试之前,我们需要清楚我们想要达到的结果。例如,我们希望通过优化注册流程来提高用户的注册转化率。对于这种情况,零假设是优化过程(测试组)和预优化过程(对照组)之间的用户注册转化率没有显著差异,而替代假设是两组结果存在显著差异。

此外,在假设构建过程中,需要注意两点:第一,A/B测试本身属于因果推理,因此首先要确定原因和结果;其次,假设必须是可测量的

需要相应的评估指标来检验假设是否成立。

注册过程优化实验的目的是提高注册转化率,因此注册转化率可以作为测试假设是否有效的评估指标。同时,评估指标也需要分层,确定唯一的核心指标,并协助多个观察指标从尽可能多的角度评估测试结果。

评价指标主要分为三类:核心指标、行车指标和护栏指标。

一般来说,只有一个核心数据指标,或是几个指标的集合。在许多情况下,它是公司或组织的核心KPI,可以驱动业务的核心价值,例如注册转化率(衡量注册流程优化实验的效果)、活动按钮点击率(评估促销活动实验的CTR效果)、,以及人均使用时间(评估推荐算法对用户粘性的改善效果)。

在确定核心指标时,需要满足两个关键原则:第一,简单易懂,并在公司/团队内得到广泛接受;其次,它相对稳定,不需要频繁更新新功能的核心指标。

除了测量测试的效果,核心指标还可以用于计算测试所需的样本量(稍后将详细描述)。由此可见,核心指标直接关系到测试的成功与否,需要重点关注。

驾驶指标通常比核心指标更短、更快、更敏感,有助于我们更快、更全面地观察业务变化。我们可以通过两个案例了解更多信息:

在商品促销活动的实验中,核心指标是订单转化率。运营学员可以使用客户单价、人均订单数量和退货率作为驱动指标。据观察,尽管下单率有所上升,但退货率或客户单价指数有所下降,因此需要进行有针对性的调整。

在一个视频推荐列表实验中,核心指标是人均播放的视频数量,驾驶指标是人均完成率和观看时间。推荐算法的效果通过核心指标和多个驾驶指标的合作进行评估。

从上面我们可以看到,驾驶指标可以帮助我们从更全面的角度观察测试对业务的影响。特别是当发现问题时,它们可以帮助我们及时分析原因,调整策略,并通过不断优化达到最终测试目的。

在确定驱动指标时,应满足三个原则:第一,驱动指标应与核心指标的目标一致,能够直接反映业务变化;第二,当指标发生变化时,有既定的方法和手段来优化指标,这些方法和手段是可操作的和与业务相关的;第三,驾驶指数是核心指数的领先指数,需要足够敏感,才能快速衡量大多数测试的效果。

护栏指标可以理解为保护业务的指标。在实际应用过程中,护栏指标的异常可以有效反映测试设计、基础设施、数据处理是否正常。它可以帮助我们在评估测试效果时做出正确的权衡,避免短期指标优化对长期指标的影响,从而获得值得信赖的测试结果。

例如,我们在实验中设置了一定的比例,让用户击中测试组(通常建议每组流量均匀分布)。如果在实际操作中,样本量与施工期间的预期不一致,我们可以猜测分流服务是否存在问题,从而导致可信度降低。

确定测试评估指标后,我们可以开始测试设计,主要分为四个阶段:

测试对象是测试中分流的随机单元。试验时,确保调车科目与评价指标分析科目相同。用户(通常为user_id)是当前主流的随机化单元。如果分流主体是用户,那么指标分析主体也应该是用户,比如人均会话数、人均点击量、人均支付金额等。

在实际业务场景中,可以使用其他转移实体,例如设备实体(device_id)。根据设备的随机化意味着每个设备生成的指标数据是独立的。例如,在订单机或自动售货机(通常为Android系统)的测试场景中,用户可以在不登录的情况下下单。此时,测试的分流实体和分析实体是独立的设备,每个设备的平均订单长度(总订单长度/独立设备数量)可作为评估指标,以衡量下一页的优化效果。

除了以上两个常用的测试科目,还会有其他科目。例如,在推荐算法测试中,推荐页面(或推荐商品)可以用作测试主题单元。在评估使用哪个随机化单元(分流主体)时,需要考虑具体的测试场景,并可以关注用户体验、分流主体和评估指标主体的一致性。

当我们假设测试并选择测试对象时,我们需要进一步明确测试的受众范围,也就是说,我们需要明确哪些用户参与了测试。通常有两种方法:完全随机筛选和定向筛选:

  • 完全随机意味着所有在线用户都是目标受众,没有任何干预。
  • 目标筛选针对特定用户组。例如,在一个在线教育应用程序的会员活动实验中,将新用户设置为目标群体,通过不同的活动探索和提高用户的购买转化率。

需要注意的是,当使用定向筛选来描绘受众时,这意味着当前的测试效果仅对这些用户有效,这并不意味着所有在线用户在应用后都具有相同的显著效果。因此,在实验结束时在线固化新特性时,有必要考虑有针对性的发布策略。

(1) 样本越多越好

我们都知道,测试的样本量对结果的准确性有直接影响。从统计理论来看,样本量越大,发现小变化的概率越大,结论的可靠性也越高。

然而,在实际业务场景中,当我们回收获胜方案时,我们应该尽快将其发布给所有用户,以扩大实验效果,实现业务的整体增长。另一方面,尽管A/B测试的目标是验证优化方案可以改善收入指标和用户体验,但测试总是伴随着未知和未考虑的风险,这可能导致与假设截然相反的结果。因此,快速分析定位原因并及时调整测试尤为重要。“快速”是A/B测试的一个重要优势,可以快速应用和扩展;快速得出结论以推动决策。

在设计实验时,我们需要平衡实际的商业场景和统计理论:我们不仅要确保足够的样本量,还要在尽可能短的时间内控制实验。

(2) 如何确定测试所需的最小样本量

样本越多越好。如何确定样本数量?这里我们需要了解中心极限定理,一般理解为:只要样本量足够大,无论什么指数,无论相应的指数如何分布,样本的平均分布都会趋于正态分布。基于正态分布,我们可以计算相应的样本量,进行假设和测试。

样本量计算背后的统计逻辑相对复杂,计算公式如下:

六大环节,教你如何从0到1搭建一场A/B测试

从公式中可以看出,样本大小主要由α,△ σ^2四个因素决定了当确定这些变量时,确定了测试所需的样本量。有关统计原则,请参见文章末尾的“补充阅读”。[1]

目前市面上有很多样本量计算工具,其背后的统计逻辑基本相同。需要提醒的是,大多数工具只能计算比率指标,而平均(绝对)指标的计算需要历史数据,通常只使用公式。

六大环节,教你如何从0到1搭建一场A/B测试

只要测试结果显著且满足最小样本量,测试是否可以停止?答案是否定的。除了最小样本量,我们还需要考虑测试指标的周期性波动和新颖性效应的影响。

(1) 周期性

在实际业务运营过程中,往往需要考虑周期性带来的指标变化。例如,周末访问旅游业的用户数量明显高于工作日;办公软件的所有指标都证明,节假日的使用频率远低于工作日。因此,当要调查的指标有其自身的周期性特征时,实验中必须考虑周期性影响,不能简单地根据结果的重要性做出决定。我们通常建议客户在合理的测试时间内至少包括一个完整的数据波动周期。

(2) 新颖性效果

在测试的初始阶段,可能会产生一些明显的影响,并在接下来的一段时间内趋于稳定。原因是,当新策略推出时,用户的兴趣值很高,这导致了新奇效应;随着时间的推移,用户的新奇感将逐渐消失。因此,在A/B测试中,我们需要评估引入的新策略是否会引起新颖性效应,以便在获得显著结果时判断是否需要延长测试周期以获得稳定的结果。

尽管在测试上线之前我们已经做了足够的测试,但我们仍然需要验证测试是否按预期正常运行。需要验证以下两项任务:

  • 分流验证:分流比例是否与预期设置一致,不同分组策略是否正常显示,用户是否跳过版本。
  • 数据验证:没有有效和准备好的评估数据,任何测试都是徒劳的。

为了确保测试的正常运行,我们还需要观察和分析不同组的数据,以避免由于设计缺陷或引入功能错误而导致的重大业务损失。

A/B测试可以有效地推动决策。在统计学中,将使用P值法和置信区间法来评估结果的显著性。这里我们将介绍常用的置信区间方法。

置信区间是一个范围,最常见的是95%置信区间。如何理解?对于随机变量,95%的概率包括总体平均值的范围,称为95%置信区间。也可以简单地理解,95%的总体数据都在这个范围内。

在A/B测试中,我们计算了两组指标的差值。如果差值的计算置信区间不包含0,那么我们可以拒绝零假设,并认为两组的结果显著不同;相反,零假设被接受,两组之间的差异并不显著。

六大环节,教你如何从0到1搭建一场A/B测试

运行A/B测试的最终目的是改进业务指标。在收集测试数据到最终决定的过程中,应考虑哪些因素?

  • 测试结果的差异是否真实且具有统计学意义?
  • 统计有效性是否足够(通常基于其是否大于80%)?
  • 测试后会带来哪些风险,风险处理的准备计划是什么?

显著性结果通常很容易判断,通过增加统计能力可以提高真实显著性的概率。然而,对于一些差异不大的测试,我们需要在测试计划中做出选择。我们需要澄清决策对未来可能产生的影响,并努力将影响控制在可预测的范围内,而不是局限于基于单一指标做出决策。

以上是一个完整的a/B测试过程。稍后,我们将结合具体的业务案例深入探索和测试每个环节。请期待!

补充阅读:

[1] 评估测试样本的指南:
https://manual.sensorsdata.cn/abtesting/latest/abtesting_SampleSize-58327106.html

作者:李世强,神策数据产品经理

本文由@神策数据原创发布给每一位产品经理。未经许可,禁止复制。

图片来自基于CC0协议的Unsplash。

谭公子树洞 abo测试免费 人际关系测试谭公子课程

赠送20本心理学电子书,添加 微信:56163509  备注:心理学

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 sumchina520@foxmail.com 举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.xinli1988.com/13331.html