uplift与因果推断
在通常的预测任务中,我们拟合的实际是Y与X的相关关系,X甚至可以是Y的结果,如GDP和发电量之间可能有一系列复杂的关系,但只要二者相关就可以互相预测。在另一些场景中则有所区别,如预测任务要指导干预(Treatment)决策时,我们所能掌控的只有Treatment变量,此时我们希望知道的是执行干预与否的效果差异(通常看增量,uplift),目的是决策是否执行或执行何种干预。如在“发券&下单”的问题中,用户的历史订单数对下单率预估有较大帮助,但对是否发券的指导意义可能会大打折扣。
相关、因果、辛普森悖论
因果关系要求“原因”先于并导致“结果”,而相关关系对顺序不做要求。参考材料中提到了很多示例,如“溺水死亡人数与冰激凌销量正相关”,显然二者不是因果关系,而是由“气温(或季节)”联系起来的相关关系。
辛普森悖论(Simpson Paradox)
趋势出现在几组数据中,但当这些组被合并后趋势消失或反转。
案例:
总共的志愿者有700个人(相当于小白鼠),分为两个组,第一组给350个人服用新生产的药物,第二组给另外350个人不用药物(或者说服用糖之类的东西,俗称安慰剂)。服药的第一组350个人中,男性患者87位,女性患者350-87 =263位。未服药的第二组350个人中,男性患者270位,女性患者350-270=80位,实验结果如表所示
总数据中,服药的患者痊愈率是78%,未服药的患者痊愈率是83%
但是在服药的患者中,男性患者的痊愈率是93%,而未服药的男性患者痊愈率是87%,证明药物有效;女性服药的患者痊愈率是73%,而未服药的患者痊愈率是69%,药物同样有效。
整体的效果而言,竟然是不服药的效果好。
从数据的角度来说,此次服用药物患者的350人和不服用药物的350人中,男女比例是不一样的。
uplift与因果推断
https://chunfei-he.github.io/2024/07/30/uplift与因果推断/