R语言实用的机器学习
代码战斗
附录
目录
代码实用19集成算法简介
19集成算法简介
简而言之,一个集成的模型是收集多个模型的结果以提供最终的预测方法。模型预测结果中错误的可能性很高。如果我收集1,000个甚至模型的结果,则错误的可能性将大大降低。因此,集成模型是一种“团体智慧”。
有很多人和强大的力量!
合奏模型可以由数十个,数百个或数千个模型组成。这些单个模型称为基本模型,或子模型()或弱分类器(弱),弱学习者(弱),弱评估者(弱)。我们之前介绍的随机森林是所有类型的集成模型。
集成模型的特定实现有许多方法,根据这些方法之间的差异,有许多分类方法。例如,它可以分为:
随机森林可以被视为一种特殊的包装方法,但有时仅将随机森林( - )用作整合方法,有时会添加融合方法()。
各种集合算法与树模型(例如决策树)密切相关。
集成模型的最大优势是其高精度率,因为毕竟这是收集多个模型的结果。
19.1包包装方法
袋子包装方法也称为自助服务聚合方法( - )。行李过程与自助式重新采样过程非常相似。例如,一个数据集具有100个样本,一次随机选择一个样本,然后将其放回原始,然后随机选择1个,然后将其放回后,然后随机选择1。,然后将其放回原处。此过程重复100次,并获得了等于原始数据集的样本大小的采样数据集。此采样数据集称为自助服务集。
由于每次将其放回然后随机选择时,因此在自助服务集中可能会有多个相同的样本!因此,有可能在100个随机采样中,有些样本尚未绘制。这些样品称为“脱离外部样本”,其中绘制的样品(即自助设置)用于训练模型,并且使用了袋外样品来评估模型性能。
行李的典型代表是随机森林算法。
随机森林与上述过程只有一件事,即,当构建模型也随机选择时使用的预测变量(功能),而不是每次都使用所有预测变量(功能)。
19.2促销方法
升级方法还通过组装多种基本模型的结果来提供更准确的预测,但是升级方法可以使每次犯错的样本更重,也就是说,可以增强这些样本而没有预测的样本,以便变得更好结果。因此,包装方法是并行训练的,但是改进方法是依次学习的。后者的学习者要求上一个学习者的结果作为基础。
提升方法的典型代表是(梯度提升方法)和(自适应提升方法)。但是,目前,梯度改进方法仍然更好地发展。
它是通过增加错误的数据点的重量来定位模型的缺点,但要通过计算梯度来定位模型的缺点()。因此,可以使用更多类型的目标功能。
如果使用的基本模型是购物车(和树),则称为树(GBDT)。
您可能还看到了GBRT,可以简单地理解为GBDT在回归模型中使用时,它是梯度增强回归()树GBRT。两者之间的主要区别是损失函数的差异。
梯度增强方法当前具有以下不同的算法:
在GBDT算法的框架下,三个称为GBDT的主流工件都改善了实现。
这是Chen 等人的开源机器学习项目。这是开发的算法,也是俄罗斯搜索巨头的开源机器学习库。我们已经以R语言介绍了他们的实现,您可以在官方帐户的背景下回复改进算法以获取相关推文。
19.3堆叠方法
现在,堆叠方法通常与融合方法(模型融合)混合在一起。它的实现方法仅如下:第一个拟合训练数据中的多个模型(可以是多个相同的模型,例如多个支持向量机模型(均匀)或多个不同模型,例如SVM和决策树(异质)),获取这些模型的预测结果,然后将这些预测结果用作培训数据以适合新模型。该新模型称为超级模型或元模型(meta))。
当然,实施非常复杂,不像我说的那么简单。当前,R中的堆叠方法可以通过MLR3或通过MLR3实现,将来我会编写一些教程。
19.4参考:
18决策树可视化
20随机森林> 20随机森林
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态