机器学习入门进阶(10.5):随机森林补充 第 10.5 篇随机森林的 Bagging 和 OOB——为什么多棵树投票更稳前一篇第十篇我们讲了随机森林直觉多棵树投票让模型比单棵树更稳这里我们讲它背后的原理尤其是Bagging和OOB袋外误差。1. BaggingBootstrap AggregatingBagging 的思路非常直观对训练集随机采样有放回地抽出若干样本训练一棵树每棵树看到的数据可能不完全一样最终预测结果取多棵树的多数票分类或平均值回归为什么有效单棵树容易受噪声影响多棵树互相抵消偏差统计上相互独立的弱相关模型平均后方差会降低2. OOB袋外误差每棵树训练时只用了部分样本剩下的样本没有用到这些就是袋外样本。用袋外样本做预测算出准确率或误差这就相当于天然的验证集不需要额外切分数据统计上OOB 误差非常接近交叉验证结果3. 方差降低的直观理解单棵树方差大一棵树训练集改一点结果可能变化很大多棵树平均Var(yˉ)1B2∑i1BVar(yi)1B2∑i≠jCov(yi,yj) \text{Var}(\bar{y}) \frac{1}{B^2} \sum_{i1}^{B} \text{Var}(y_i) \frac{1}{B^2} \sum_{i \neq j} \text{Cov}(y_i, y_j)Var(yˉ​)B21​i1∑B​Var(yi​)B21​ij∑​Cov(yi​,yj​)B 是树数量如果树之间相关性低随机采样 随机特征选择方差就大幅降低预测结果更稳4. 随机森林为什么随机抽特征每个节点分裂时只看随机特征目的是增加树之间差异降低相关性让 Bagging 的方差降低效果更明显5. 特征重要性原理随机森林还能算特征重要性看每棵树分裂节点时某个特征带来的纯度提升Gini 或信息增益对所有树求平均得到每个特征的重要性分数更稳健的方法是置换重要性打乱某个特征看模型性能下降多少下降越多 → 这个特征越重要6. 小结Bagging 随机特征选择 → 多棵树低相关 → 方差降低 → 预测更稳OOB 提供天然验证集特征重要性来自分裂纯度提升或置换测试理解这些原理你就明白为什么随机森林比单棵树稳又能解释特征贡献