因果推理“三问”:是什么?
发布时间:2021-05-22 21:07:43 所属栏目:大数据 来源:互联网
导读:在上图中,我举了一个混淆变量,其中年龄与戒烟率和致死率都是正相关的。年龄越大,死亡率越高,但吸烟率越低。如果我们在估计吸烟对死亡率的影响时没有控制年龄,我们可能会观察到吸烟会减少死亡率这样荒谬结果。我们不能在这里得出因果关系,因为我们没有
|
在上图中,我举了一个混淆变量,其中年龄与戒烟率和致死率都是正相关的。年龄越大,死亡率越高,但吸烟率越低。如果我们在估计吸烟对死亡率的影响时没有控制年龄,我们可能会观察到吸烟会减少死亡率这样荒谬结果。我们不能在这里得出因果关系,因为我们没有控制所有混杂变量。关于这个例子的更多细节,你可以阅读我讨论 "辛普森悖论 "的文章:
所谓的“辛普森悖论”
在得出因果效应的结论时,我们需要记住的另一个因素是选择偏差。为了隔离治疗效果,我们需要确保治疗组单位是在人群中随机选择的。这样,我们在治疗后观察到的差异不是因为其他因素,而是因为治疗。举个例子,当一家超市想估计提供优惠券对提高整体销售额的影响时。如果超市只把优惠券传递给在店里购物的顾客(干预组),发现他们比没有收到优惠券的顾客(对照组)购买了更多的商品,那么市场由于选择偏差而无法在此处得出因果关系。没有将顾客随机选择到治疗组中。他们之所以在这里,是因为他们在超市购物,这表明与对照组相比,即使没有优惠券,他们也更可能从超市购买商品。比较来自治疗组和对照组的结果变量在这里将毫无意义。
为什么要估计因果关系?
得到因果关系是如此复杂的,何必还要呢?我们为什么不直接使用相关性呢?我们知道相关性在进行预测时是有用的。如果我们知道变量A与变量B有很强的相关性,那么知道变量A的值就可以帮助我们预测变量B的值。在业务环境中,我们可以利用相关性来预测给哪些客户群体做促销,这样我们就可以根据客户过去的行为和其他客户特征来提高转化率。但是,即使是最准确的预测模型,也不能得出结论,当你观察到客户转化率提高了,就是因为促销。我们需要设计实验或进行准实验研究,才能得出因果关系并量化干预效果。在这个例子中,因果推理可以告诉你,提供促销活动是否增加了客户转化率,以及增加了多少。因此,与相关性相比,因果关系能给决策者更多的指导和信心。
如何进行因果推断?
1、不同的干预效应
估计因果效应与估计你的利益结果变量的干预效应是一样的。根据具体的研究或业务问题,可以选择不同的治疗效果进行估计。假设Y是结果变量,其中Y⁰是没有干预的结果,Y¹是有干预的结果。T为虚拟变量,表示单位i是在干预组(T=1)还是对照组(T=0):
平均干预效应(ATE):
平均而言,干预组和对照组之间的结果变量有何不同?
![]() (编辑:菏泽站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


