A/B测试-样本比例不匹配(SRM)问题诊断方法

概论

在A/B测试运行过程中,经常会遇到对照组和实验组的进组用户比例与实验开始前配置的用户比例之间的显著差异;对这种不成比例的数据进行分析可能产生错误的结果;为了防止这种危害,每个A/B测试在分析其影响之前必须首先通过这个样本比例不匹配(Sample Ratio Mismatch,SRM)测试。

解决思路

T检验

当试验只有对照组和一个实验组时,可以认为用户要么进入对照组,要么进入实验组,服从伯努利分布(0-1分布),当用户数足够多时,可以认为服从正态分布,可以用单样本均值T检验;
单样本均值T检验主要是检验单样本的均值是否和已知总体的均值相等,假设对照组的进组人数为n_{ctr},实验组的进组人数为n_{exp}

H_0: 样本均值和已知总体的均值相等
H_1: 样本均值和已知总体的均值不等

t=(\overline X-\mu ) \over {s \over \sqrt n}

  1. \overline X=n_{ctr} \over n_{ctr} +n_{exp},为样本均值
  2. \mu为整体均值,对于50:50试验,为0.5;
  3. s=\sqrt {p(1-p)}:在大样本的情况下,二项分布的计算会很麻烦,当np和n(1-p)都大于5时可以采用正态来近似s=\sqrt {p(1-p)},;
  4. n=n_{ctr}+n_{exp}
  5. 自由度为n_{ctr} +n_{exp} -1

例子:50:50的AB试验,对照组的入组用户为2157455,实验组为2158281
|\overline X-\mu|=|2157455/(2157455+2158281)-0.5|=0.0000956963076518
s \over \sqrt n=0.0002406814178177805
t=0.3976057167996721
p=2 * (1 - td.cumulativeProbability(t))=0.6909208651241738
由于p>0.05,则不能拒绝原假设;

卡方检验

卡方拟合优度可以用于实际比例与期望比例的校验:

X^2=\sum_1^n{(O_i-E_i )^2 \over E_i}
n是表格的单元格梳理,O_iE_i分别是实际观察值到和预期值;
X^2分别的自由度为(r-1)(c-1), r和c分别是表格的行数和列数

点数 观测频次 理论频次
对照组 2157455 2157868
试验组 2158281 2157868

X^2=(2157455-2157868)^2/2157868+(2158281-2157868)^2/2157868=0.15809030024079324
自由度为1,查询卡方表得到p=0.69(分布拟合检验为右边检验)
由于p>0.05,则不能拒绝原假设;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1. 前言 A/B测试常用于算法优化(推荐,广告,搜索等),运营策略选择,UI设计等,是互联网产品迭代中最常用的评...
    小新_XX阅读 444评论 0 0
  • 面对两套无法判断效果的方案,可考虑A/B test,简单的说就是通过控制变量进行数据对比来判断哪种策略更有效果。 ...
    王小野阅读 465评论 0 1
  • 增长团队有三宝:埋点、漏斗、AB测。工作中一直想实践,没有合适的机会,过段时间又忘了。在此整理一下,虽然比不上做过...
    梦游的猫头鹰阅读 2,649评论 0 5
  • 文章发布于公号【数智物语】(ID:decision_engine),关注公号不错过每一篇干货。 作者:Tony Y...
    数智物语阅读 406评论 0 5
  • 01前言 A/B实验的目的在于通过科学的实验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的结论...
    言射手阅读 1,345评论 0 1