4.3.1.1 正交分数与交叉拟合

文档摘要

4.3.1.1 正交分数与交叉拟合 4.3.1.1 正交分数与交叉拟合想象一下，你正领导一个医疗政策评估项目，手握海量患者数据：治疗变量$ D $（是否接受新药）、结果变量$ Y $（康复率）、以及上百个协变量$ X $（年龄、既往病史、基因标记等）。目标是估计平均治疗效应$ \theta = \mathbb{E}[Y(1) - Y(0)] $，但高维$ X $让传统OLS失效——多重共线性像幽灵般缠绕，nuisance参数（如倾向评分$ g(X) $和条件期望$ m(X) $）的估计误差会雪上加霜，放大偏差。你试过ML模型拟合nuisance，却发现效应估计偏离真实值20%以上。痛点来了：如何让第一阶段的ML“失误”不传染到第二阶段的因果参数？