AB测试:新用户引导 实验背景完成了产品 “Aha 时刻”也就是真正体验到产品核心价值就是有很大概率留下来的用户。所以在APP新用户引入之初就引导用户去发现产品的价值有助于提升新用户的留存。不同的引导方式可能有不同的影响于是设计新用户引导的AB实验来找一个最优解。以娱乐直播间为例产品的核心价值是提供情绪价值与社区归属感新用户引导环节的设计应该尽可能让用户接触直播间并点关注或者发言产生互动。1.实验假设与核心定义实验目标对比3种不同引导方式弹窗引导、分步引导、视频引导找到最优方案进而提升新用户留存率。指标选择核心激活率。核心激活用户指完成产品“Aha时刻”的用户这里的AHa时刻指关注直播间发送弹幕。护栏指标防止实验产生负面影响APP崩溃率、引导立即关闭率、用户投诉率实验假设原假设H03种引导方式的核心激活率没有差异备择假设H1分步引导 / 视频引导的 7 日核心激活率显著高于传统弹窗引导预期提升 15%2.实验分组与变量控制组别引导方式具体内容对照组A 组传统弹窗引导注册成功后一次性弹出全屏弹窗展示 3 张滚动的静态图片分别介绍三个核心功能“关注直播间”、“发送弹幕”、“获得首次任务奖励”用户点击 知道了 关闭弹窗。实验组 1B 组分步引导注册成功后分 3 步引导用户完成核心动作1. 第一步推荐 3 个热门直播间引导用户点击进入2. 第二步进入语音房后高亮“关注” 、发言 按钮引导用户关注、发送 1 条弹幕3. 第三步提示用户完成引导可获得 100 金币奖励。实验组 2C 组短视频引导注册成功后自动播放 15 秒短视频展示 如何关注直播间、 如何发送弹幕 、如何获得奖励视频播放完毕后弹出 立即体验 按钮。3.最小样本量计算对于二分类指标比例类的指标最小样本量的公式是基线转化率p当前弹窗引导的核心激活率为35%预期提升幅度在原来的基础上提升15%也就是从35%提升到40.25%绝对差值40.25%-35%5.25%显著性水平0.0595%置信度通用标准1.96双侧检验的Z值统计功效1-0.8通用标准0.84功效对应的Z值带入公式最小样本量n 2*1.960.84^2*0.35*1-0.35/ 0.0525^2 ≈ 1294最终样本量的确定3组总样本量 1294*3 38824.回收结果最终有效样本如下组别总注册用户数n7 日核心激活用户数成功未激活用户数失败实际 7 日核心激活率对照组A 组 - 弹窗引导145050894235.03%实验组 1B 组 - 分步引导142858684241.04%实验组 2C 组 - 视频引导143655288438.44%卡方计算 11.05自由度计算df 行数-1*列数-12p值计算根据卡方 11.05自由度df2使用 Excel 函数CHISQ.DIST.RT(11.05,2)计算得p值≈0.004显著性判断本实验 p 值 0.004 0.05结论拒绝原假设 H₀三组的 7 日核心激活率存在统计显著差异5.两两比较整体卡方检验显著只能说明 三组之间有差异但不能说明 哪两组之间有差异需要进行两两比较并使用 Bonferroni 校正避免假阳性爆炸。校正后显著性水平共进行 3 次两两比较A vs B、A vs C、B vs C因此校正后的显著性水平/ 比较次数0.05/3 ≈ 0.0167两两比较计算A 组 vs B 组弹窗 vs 分步引导组别激活未激活合计A 组5089421450B 组5868421428计算卡方值χ²≈9.72自由度 df1p 值≈0.0018p0.0018 0.0167 →差异显著分步引导组激活率比对照组高 6.01 个百分点相对提升 17.1%A 组 vs C 组弹窗 vs 视频引导组别激活未激活合计A 组5089421450C 组5528841436计算卡方值χ²≈3.89自由度 df1p 值≈0.0486p0.0486 0.0167 →差异不显著视频引导组激活率比对照组高 3.41 个百分点但未达到校正后的显著性水平B 组 vs C 组分步 vs 视频引导组别激活未激活合计B 组5868421428C 组5528841436计算卡方值χ²≈1.98自由度 df1p 值≈0.159p0.159 0.0167 →差异不显著6.统计结论与业务决策统计结论整体卡方检验 p0.0040.05三组激活率存在显著差异分步引导组B 组的激活率显著高于对照组A 组p0.00180.0167视频引导组C 组与对照组无显著差异p0.04860.0167分步引导组与视频引导组无显著差异p0.1590.0167全量上线分步引导方式核心依据分步引导能显著提升 7 日核心激活率 17.1%且次要指标7 日留存率从 18% 提升至 26.2%无负面影响视频引导虽然有提升趋势但未达到统计显著性且开发和维护成本高于分步引导暂不采纳。