概论
在A/B测试运行过程中,经常会遇到对照组和实验组的进组用户比例与实验开始前配置的用户比例之间的显著差异;对这种不成比例的数据进行分析可能产生错误的结果;为了防止这种危害,每个A/B测试在分析其影响之前必须首先通过这个样本比例不匹配(Sample Ratio Mismatch,SRM)测试。
解决思路
T检验
当试验只有对照组和一个实验组时,可以认为用户要么进入对照组,要么进入实验组,服从伯努利分布(0-1分布),当用户数足够多时,可以认为服从正态分布,可以用单样本均值T检验;
单样本均值T检验主要是检验单样本的均值是否和已知总体的均值相等,假设对照组的进组人数为,实验组的进组人数为
;
: 样本均值和已知总体的均值相等
: 样本均值和已知总体的均值不等
t=
-
=
,为样本均值
-
为整体均值,对于50:50试验,为0.5;
-
:在大样本的情况下,二项分布的计算会很麻烦,当np和n(1-p)都大于5时可以采用正态来近似
,;
- 自由度为
例子:50:50的AB试验,对照组的入组用户为2157455,实验组为2158281
||=|2157455/(2157455+2158281)-0.5|=0.0000956963076518
=0.0002406814178177805
t=0.3976057167996721
p=2 * (1 - td.cumulativeProbability(t))=0.6909208651241738
由于p>0.05,则不能拒绝原假设;
卡方检验
卡方拟合优度可以用于实际比例与期望比例的校验:
=
n是表格的单元格梳理,和
分别是实际观察值到和预期值;
分别的自由度为(r-1)(c-1), r和c分别是表格的行数和列数
点数 | 观测频次 | 理论频次 |
---|---|---|
对照组 | 2157455 | 2157868 |
试验组 | 2158281 | 2157868 |
=
=0.15809030024079324
自由度为1,查询卡方表得到p=0.69(分布拟合检验为右边检验)
由于p>0.05,则不能拒绝原假设;