8.6 模型选择 在机器学习中,我们往往需要做出高层次的建模决策,这些决策对模型的性能有着至关重要的影响。我们所做的选择(例如,似然函数的形式)会影响模型中自由参数的数量和类型,进而也影响模型的灵活性和表达能力。更复杂的模型在某种意义上更加灵活,因为它们能够用来描述更多的数据集。例如,一个1次多项式(即一条直线$y=a0+a1x$)只能用来描述输入$x$和观测值$y$之间的线性关系。而通过将$a2$设为0(即二次项系数为0),我们可以得到一个2次多项式,它除了能描述线性关系外,还能描述输入和观测值之间的二次关系。 现在,人们可能会认为,由于非常灵活的模型更具表达力,因此它们通常比简单的模型更受青睐。但一个普遍的问题是,在训练时,我们只能使用训练集来评估模型的性能并学习其参数。