2.3 特征工程方法 2.3 特征工程方法 特征工程是机器学习流程中至关重要的一环,它通过对原始数据进行转换、组合和创造,以提取出对模型预测有益的信息。优秀的特征工程能够显著提升模型的性能,甚至比选择更复杂的模型或增加更多数据更为有效。本章将深入探讨各种常用的特征工程方法,并结合实际案例和可视化工具(如Mermaid图)进行说明。 2.3.1 数值特征处理 数值特征是数据集中最常见的类型之一,对其进行恰当的处理能够有效提升模型的泛化能力。 2.3.1.1 缺失值填充 缺失值是数据集中常见的问题,处理不当会影响模型的训练和性能。 均值/中位数/众数填充: 均值填充: 适用于数据分布近似正态分布且没有异常值的情况。 中位数填充: 对异常值不敏感,适用于数据分布偏斜的情况。