数据分析-结构比率归因-定位异常原因

我们来看下面一个场景,表一是2020和2021年不同用户群体的用户数,以及对应群体的付费率。表二是2020年和2021年总体的付费率下降了2.8%。想问一下,我们通过表一如何分析原因?(付费率= 付费人数/总人数)

表一:

年份 新注册用户数 活跃用户数 召回用户数
2020年 4 92 4
2021年 6 188 6
年份 新注册付费率 活跃用户付费率 召回用户付费率
2020年 14% 21% 20%
2021年 16% 18% 17%

表二:

年份 整体付费率 差异
2020年 20.7%
2021年 17.9% -2.8%

付费率下降原因

结构占比变化

由上表一我们可以算出来各个用户群体,在2020年和2021年结构的占比,以及占比的变化:表三:

年份 新注册用户占比 活跃用户占比 召回用户占比
2020年 4% 92% 4%
2021年 3% 94% 3%
差异 -1% 2% -1%

比率-付费率变化

由上表一我们又可以算出来各个用户群体,在2020年和2021年付费率的变化:

表四:

年份 新注册付费率 活跃用户付费率 召回用户付费率
2020年 14% 21% 20%
2021年 16% 18% 17%
差异 2% -3% -3%

整体付费率变化的贡献值

通过表三和表四,我们可以得到各个群体比率变动和结构变动对于整体付费率变化的影响大小,见表五:
表五:

年份 新注用户 活跃用户 召回用户
比率变动影响 0.07% -2.79% -0.11%
结构变动影响 -0.15% 0.39% -0.19%

总的付费率变动 = 0.07%+(-2.79%)+(-0.11%)+(-0.15%)+0.39%+(-0.19%)=-2.8%。与上面表二的结果是一样的

结果解读

通过表五得出来的结果,我们可以看到总体付费率的变化是由于活跃用户付费率的下降,导致了整体付费率的下降。

那么,我们是如何得到表五的数据呢?

结构比率问题--拆解

接下来是一段长文推导,如有不适,忍着看完,进行思考。假设各群体的占比和付费率如下表六:

表六

每一部分(群体)变动的计算:

比率(付费率)变动影响:


公式1

结构占比变动的影响:公式2

公式2

如何理解:

我们是希望把总的比率(付费率)变动分解为不同维度(用户群体)比率变动和结构占比变动,这样我们就能够方便的看出:

  1. 到底是这个群体比率上升下降的原因,还是说这个群体的占比上升下降导致整个比率的上升下降。

  2. 看整个比率变动的主要原因和次要原因,对其进行量化。

说完目标,接下来看看具体公式的理解。

比率变动的影响:

主要是量化活跃用户比率(付费率)的变化对于整体比率(付费率)变化的影响,我们使用AB1'-AB1,这是活跃用户比率变化的绝对量。

但是我们考虑的是对总体比率变化的影响,所以需要乘以活跃用户占比,但是活跃用户占比是在变化的,这里我们就直接乘以(W1'-W1)/2,使用均值来稳定占比的变化。

这样我们就计算出来了活跃用户比率变化对于整体比率变化的影响了

结构占比变动的影响:

公式1仅计算出了活跃用户比率变化对于整体比率变化的影响,我们还需要考虑活跃用户结构的变化对于整体比率变化的影响,所以就有了公式2。

公式2的理解跟公式1一样,考虑活跃用户结构变化的绝对量,然后乘以稳定的比率。

单个群体(活跃用户)变动计算:公式3

这样我们就能得到单个群体变动对于总体变动量

公式3

同理所有的变动就是各个群体变动相加:公式4

公式4

总体变动:

假设总体用户为a,则总体付费比率AB可表示为:公式5

公式5

即:公式6

公式6

因此:公式7

公式7

所以,总的比率(付费率)理论上就是等于各个群体的比率变动影响和结构变动影响相加

希望您还在看。。。

希望您还在看。。。

希望您还在看。。。

接下来就是一个分渠道购买率定位问题的案例,以及对于辛普森简单理解。

分渠道购买率--定位三板斧

话不多说,直接上表表七:

年份 安卓 IOS 小程序
2020年 250 200 550
2021年 900 700 400
年份 安卓付费率 ios付费率 小程序付费率
2020年 60% 60% 30%
2021年 58% 70% 40%

一、算出每个群体比率和结构差值

表八:

年份 安卓付费率 ios付费率 小程序付费率
2020年 60% 60% 30%
2021年 58% 70% 40%
差异 -2% 10% 10%
年份 安卓占比 IOS占比 小程序占比
2020年 25% 20% 55%
2021年 45% 35% 20%
差异 20% 15% -35%

二、计算每一个渠道的贡献

表九:

影响 安卓 IOS 小程序
比率变动影响 -0.7% 2.8% 3.8%
结构变动影响 11.8% 9.8% -12.3%
总变动 15.1%

三、单独计算总付费率

表十:

影响 差异
2020年付费率 43.5%
2021年付费率 58.6%
总变动 15.1%

总结:

我们从表九可以看到:主要是由于安卓端占比的上升,以及IOS占比上升导致总体的付率从43.5%上升到58.6%

辛普森悖论的理解

什么是辛普森悖论:

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方

例如表十一,总体的付费率是在上升,但是安卓和IOS的付费率都是在下降:
表十一:

2020 2020 2020 2021 2021 2021
指标 安卓 IOS 汇总 安卓 IOS 汇总
用户数 1600 3500 5100 8000 2000 10000
付费用户数 120 100 220 500 40 540
付费率 7.5% 2.9% 4.3% 6.3% 2.0% 5.4%

从表十一我们很快得到表十二的数据

表十二:

年份 安卓 IOS
2020 1600 3500
2021 8000 2000
比率 安卓付费率 IOS付费率
2020 7.5% 2.9%
2021 6.3% 2.0%
差异 -1.2% -0.9%
结构 安卓占比 IOS占比
2020 31.4% 68.6%
2021 80.0% 20.0%
差异 48.6% -48.6%
变动 安卓 IOS
比率变动 -0.7% -0.4%
结构变动 3.4% -1.2%
总变动 1.1%

结论:
从表十二,我们可以看出主要是由于安卓的占比上升导致整个付费率的上升。

写在最后:
感谢怡然同学的合作和支持。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容