随机森林 (randomForest) R语言中的随机森林(Random Forest):理论、实践与对比 1. 随机森林的理论基础 随机森林的核心思想是“集成学习”,即通过组合多个弱学习器(决策树)来构建一个强学习器。其关键步骤包括: Bootstrap抽样: 从原始数据集中有放回地随机抽取样本,形成多个训练集。每个训练集称为一个bootstrap样本。 特征子集随机选择: 在每个节点分裂时,不是考虑所有特征,而是随机选择一个特征子集。这有助于降低树之间的相关性。 决策树构建: 使用每个bootstrap样本和特征子集构建一棵决策树。 预测集成: 对于分类问题,采用多数投票法;对于回归问题,采用平均法,将所有决策树的预测结果进行集成,得到最终的预测结果。