代码实战：集成算法简介与基模型应用全解析

2025年02月14日阅读 12

摘要：R语言实用的机器学习代码战斗附录目录代码实用19集成算法简介19集成算法简介简而言之，一个集成的模型是收集多个模型的结果以提供最终的预测方法。模型预测结果中错误的可能性很高。如果我收集1,000个甚至模型的结果，则错误的可能性将大大降低。因此，集成...

R语言实用的机器学习

代码战斗

附录

代码实用19集成算法简介

19集成算法简介

简而言之，一个集成的模型是收集多个模型的结果以提供最终的预测方法。模型预测结果中错误的可能性很高。如果我收集1,000个甚至模型的结果，则错误的可能性将大大降低。因此，集成模型是一种“团体智慧”。

有很多人和强大的力量！

合奏模型可以由数十个，数百个或数千个模型组成。这些单个模型称为基本模型，或子模型（）或弱分类器（弱），弱学习者（弱），弱评估者（弱）。我们之前介绍的随机森林是所有类型的集成模型。

集成模型的特定实现有许多方法，根据这些方法之间的差异，有许多分类方法。例如，它可以分为：

随机森林可以被视为一种特殊的包装方法，但有时仅将随机森林（ - ）用作整合方法，有时会添加融合方法（）。

r 机器学习_机器学习周志华_机器学习python

各种集合算法与树模型（例如决策树）密切相关。

集成模型的最大优势是其高精度率，因为毕竟这是收集多个模型的结果。

19.1包包装方法

袋子包装方法也称为自助服务聚合方法（ - ）。行李过程与自助式重新采样过程非常相似。例如，一个数据集具有100个样本，一次随机选择一个样本，然后将其放回原始，然后随机选择1个，然后将其放回后，然后随机选择1。，然后将其放回原处。此过程重复100次，并获得了等于原始数据集的样本大小的采样数据集。此采样数据集称为自助服务集。

由于每次将其放回然后随机选择时，因此在自助服务集中可能会有多个相同的样本！因此，有可能在100个随机采样中，有些样本尚未绘制。这些样品称为“脱离外部样本”，其中绘制的样品（即自助设置）用于训练模型，并且使用了袋外样品来评估模型性能。

行李的典型代表是随机森林算法。

随机森林与上述过程只有一件事，即，当构建模型也随机选择时使用的预测变量（功能），而不是每次都使用所有预测变量（功能）。

19.2促销方法

升级方法还通过组装多种基本模型的结果来提供更准确的预测，但是升级方法可以使每次犯错的样本更重，也就是说，可以增强这些样本而没有预测的样本，以便变得更好结果。因此，包装方法是并行训练的，但是改进方法是依次学习的。后者的学习者要求上一个学习者的结果作为基础。

提升方法的典型代表是（梯度提升方法）和（自适应提升方法）。但是，目前，梯度改进方法仍然更好地发展。

它是通过增加错误的数据点的重量来定位模型的缺点，但要通过计算梯度来定位模型的缺点（）。因此，可以使用更多类型的目标功能。

如果使用的基本模型是购物车（和树），则称为树（GBDT）。

机器学习python_r 机器学习_机器学习周志华

您可能还看到了GBRT，可以简单地理解为GBDT在回归模型中使用时，它是梯度增强回归（）树GBRT。两者之间的主要区别是损失函数的差异。

梯度增强方法当前具有以下不同的算法：

在GBDT算法的框架下，三个称为GBDT的主流工件都改善了实现。

这是Chen 等人的开源机器学习项目。这是开发的算法，也是俄罗斯搜索巨头的开源机器学习库。我们已经以R语言介绍了他们的实现，您可以在官方帐户的背景下回复改进算法以获取相关推文。

19.3堆叠方法

现在，堆叠方法通常与融合方法（模型融合）混合在一起。它的实现方法仅如下：第一个拟合训练数据中的多个模型（可以是多个相同的模型，例如多个支持向量机模型（均匀）或多个不同模型，例如SVM和决策树（异质）），获取这些模型的预测结果，然后将这些预测结果用作培训数据以适合新模型。该新模型称为超级模型或元模型（meta））。

当然，实施非常复杂，不像我说的那么简单。当前，R中的堆叠方法可以通过MLR3或通过MLR3实现，将来我会编写一些教程。

19.4参考：

18决策树可视化

20随机森林> 20随机森林

原文链接：http://wen.bjhwtx.com/post/3615.html