AB实验实战中常见的问题最新动态

/ / 2015-10-25
有了上面对AB实验的认知后,其实在实战中还会遇到很多巨坑的问题,一个坑没避过,实验的宝贵时间和投入的资源就被浪费了,还有可能得出误导性的结论。 1)用户串组问题,...

有了上面对AB实验的认知后,其实在实战中还会遇到很多巨坑的问题,一个坑没避过,实验的宝贵时间和投入的资源就被浪费了,还有可能得出误导性的结论。

1)用户串组问题,要保证用户id的唯一性。

这个问题比较坑,在新用户实验可能会遇到。

如果有些公司的安卓手机在获取设备号前后,或者注册前后使用不同的id,会导致体验完实验变量的用户被二次分组,再次流入到其他组中,最终数据结果不可用。

2)用户出组问题,要保证实验对象的不变性。

这个问题在圈层实验中可能会遇到。

圈层实验要在需求里写清楚用户在AB实验中不会出组。

比如通过兴趣标签或者用户行为进行的用户圈层,当他的兴趣标签或者行为产生了变化,实验结束前用户身上的实验id不能消失,不然用户会从实验组中退出;不同组退出用户的比率和成分不一样,也会导致数据的结果不可用。

3)交叉实验没有策略互相覆盖的问题,要保证策略的执行。

一般不同团队在做衔接实验的时候,可能会遇到这种问题。

比如做新用户的兴趣选择实验,以便用户进入产品后看到更匹配的内容推荐。

但如果这个时候推荐层本身也在做实验,没有做好对接的话,可能会导致兴趣选择层的几个实验组用户都流入了推荐层的某一组中;而这个实验的结果是由兴趣选择和推荐一起作用才有可能产生的,不然就拿不到预期的结果,得出失败的结论。

4)交叉认知不足,导致无法并行大量实验问题,不要学其形无其神。

这个我在上一部分已经讲过,这里不做再次讲解。

5)不会看数据的问题,没从直接影响指标(分层、分群、局部)到大盘指标。

一般做实验的时候都是用变量去影响一个直接指标或者局部指标,然后通过这个指标去撬动大盘的指标,而不是直接做大盘指标的。

  • 比如说做推荐模块的实验,一定是先提升了推荐模块的数据,再带动了大盘的增长;
  • 比如说做播放环节的实验,一定是先提升了播放环节的体验,才带动了大盘的数据提升。

甚至有些实验虽然提高了局部效率,但本身不能撬动大盘,但其本身确是有价值的。

比如说你给视频产品提供了调整播放速度的功能或者学舞蹈时的镜像功能,他可能不会对播放时长留存等数据带来直接的提升,但他本身是有价值的;你可以看他的使用率,可以定性获取用户需要的必要性,也可以问问自己的常识。

而有些同学做实验会直接拉大盘指标来看数据效果,可能会出现这种情况,有局部收益的需求被草率下掉,有体验价值的被直接干掉了。

还可能出现的问题是,这个实验没有成功的原因是什么,哪里不符合预期,是否还有可继续的空间,都无从得知,因为你没看过程的局部的数据嘛。

6)实验结果数据的置信度

一般实验结论要经过置信度检验环节,不然数据结论不可信。

部分同学,应该是少量的吧,可能是面子问题,正向5天 负向2天也认为实验是正向的,或者提升很微弱其实并不可置信,也说是实验是正向的。

唉,其实意思不大。

但从维持团队的积极性来看,也可以理解,毕竟没有大的伤害;但如果要用来作为支持开展大项目的论据的时候,一定要慎重地进行置信度检验。

7)实验是验证你基于用户和规律洞察后的假设,不要用实验代替假设。

这个问题应该是普遍存在的,大概率会造成产研之间的矛盾,也会伤害到产品同学自身的发展。

因为实验可以快速验证假设,也就大大降低了决策的成本,确定不了的方案就直接上实验测一下。

但长此以往也会削弱产品经理的深度思考能力,用实验代替自己的思考。

甚至没有用户洞察、没有行业分析、没有高质量的假设,很浅的想到或者找到一堆方案就往实验上扑,最终会为了实验而实验。

而这些低质量的实验大概率成功率也很低,团队疲于奔命又不认可的搞了一大顿之后,信心和积极性会很受打击,你离滚蛋也就不远了。

8)实验探索的坚韧性,很多人会通过简单的尝试, 得出对这个世界太多的否定结论。

有的同学做实验,上线后数据好了就全量,数据负向就下线,然后这个实验就结束了。

但其实很多大些颗粒的事情,做成是没有那么顺利的。

即便数据是负向的,也有很多可研究的可能性。

  • 可能需求是对的,你产品设计的表意有问题,用户没看懂;
  • 可能用户需要一段时间的培养,不是直接能产生效果的变量;
  • 可能需求是不对的,但是你发现了新的进攻点;

甚至可能是实验执行出问题了,或者数据出错了,要修正一下。

做成一个实验是很难的,要有耐性不断探索认知,才可能发现稀稀拉拉的新机会。

联系电话

粤公网安备 44030502004850号