4.3.1.1 正交分数与交叉拟合 4.3.1.1 正交分数与交叉拟合 想象一下,你正领导一个医疗政策评估项目,手握海量患者数据:治疗变量$ D $(是否接受新药)、结果变量$ Y $(康复率)、以及上百个协变量$ X $(年龄、既往病史、基因标记等)。目标是估计平均治疗效应$ \theta = \mathbb{E}[Y(1) - Y(0)] $,但高维$ X $让传统OLS失效——多重共线性像幽灵般缠绕,nuisance参数(如倾向评分$ g(X) $和条件期望$ m(X) $)的估计误差会雪上加霜,放大偏差。你试过ML模型拟合nuisance,却发现效应估计偏离真实值20%以上。痛点来了:如何让第一阶段的ML“失误”不传染到第二阶段的因果参数?