前言
回归预测建模的核心是学习输入和输出之间的映射关系(其中连续值向量)。条件期望是回归函数。简而言之,它是将样本的特征矩阵映射到样品标签空间。
产生的图像。 a in and and and。 a的工作,带有A及其。 cool and,and and ai。
本文全面编译了各种回归预测模型,旨在帮助读者更好地学习回归预测模型。
线性模型
线性回归是一种线性模型,可通过特征的线性组合预测连续值标签。线性回归使用拟合系数的线性模型(可选地设置截距)来最大程度地减少真实和预测值之间残差的平方之和。
::
# - 。
3。非线性模型
非线性回归是一种非线性模型,它通过非线性的特征相互作用来预测连续价值标签。在回归预测实践中,最常用的集合树模型是因为它们具有适应异构数据,有效计算,良好的概括性能以及简单性和易用性的优势。
三大数据竞赛:(极端梯度提升及其变体)
其他:
普通非线性回归的预期功能的选择通常取决于我们对系统响应曲线形状的理解以及物理和化学属性的行为。可能的非线性函数包括但不限于多项式,指数,对数,S形和渐近曲线。您需要指定与您现有知识相匹配并满足非线性回归假设的函数。尽管可以灵活地指定各种所需的功能,但可能需要大量精力来确定最适合数据的功能。这通常需要其他研究,利用领域知识以及试验和错误分析。此外,在确定每个预测器变量对响应的效果时,非线性方程可能不如线性方程式更直观。
决策树回归。推车决策树可以应用于回归预测。进行预测时,新样本从根节点开始,并根据其特征值分配给每个节点处的左子节点或右子节点,直到它到达叶子节点为止。该叶节点中所有训练样品标签的平均值是新样本的预测值。
支持向量机回归。支持向量机器可用于回归预测任务,这主要是由于其对ε不敏感的损耗函数和内核功能技能。这两个属性允许SVR处理线性和非线性问题并防止过度拟合,因此它是一个有效的回归预测模型。
KNN返回。 KNN是一种基于实例的学习方法,也称为懒惰学习。它有效:当需要预测一个新的数据点时,KNN会找到最接近已知数据集中新数据点的K点,然后根据这些邻居的属性来预测新数据点。财产。在分类任务中,KNN通常在这些邻居中选择最常见的类别作为新数据点的类别。在回归任务中,KNN通常计算这些邻居的平均或中位数,并将此值用作新数据点的预测值。
普通的神经网络回归。多层感知器MLP,将样品的特征矩阵映射到样品标签空间。开发过程:初始化网络后,进行正向计算,反向传播和优化(损耗函数通常是均为正方形错误MSE),然后进行迭代训练。该方法可用于回归预测。
随机森林返回。 是一种基于范式的集合学习算法,重点是减少差异。随机森林算法首先创建多个决策树,每个决策树都在数据集的随机子集上进行训练。此过程称为自助采样()。特征选择:在构建决策树的过程中,随机森林将从每个节点处的特征随机子集中选择最佳特征进行分割。这种方法增强了模型的多样性,从而降低了过度拟合的风险。对于回归问题,最终预测结果是所有决策树预测结果的平均值。
深森林()返回。 Zhou 团队老师的作品是一种基于决策树的新颖综合学习方法。深森林主要由两个部分组成:多粒扫描和级联森林。其中,多透明的扫描通过滑动窗户技术获得了多个功能子集,以增强级联森林的差异。级联森林使用级联方法来实现由决策树组成的森林的表征和学习。深森林继承了对样本特征属性深度学习的逐层处理机制,同时又超过了深度学习的缺点,例如强烈依赖深度学习参数,大型培训开销,并且仅适用于大数据。
返回(是的,简称)。这是一种使用决策树的集成学习方法,该方法类似于随机森林,但更快。创建了许多决策树,但是每棵树的采样都是随机的,因此您可以设置是否有任何重新示例。每棵树还随机从所有功能集中随机选择特定数量的功能。最重要和独特的特征是对特征的分段值的随机选择。该算法不是使用Gini或熵值来计算本地最佳值来分割数据,而是随机选择一个拆分值。这使得树的多样化和不相关有效地抑制过度拟合。
返回。这是一种基于范式的集成学习算法,重点是减少偏见。回归的基本步骤包括:(1)初始化训练样本的重量。每个样品的初始权重相等; (2)对于每次迭代:使用当前的样本重量来训练弱学习者(例如决策树),计算此弱学习者的预测错误,并根据预测错误计算此弱学习者的权重并更新样品的重量; (3)权重和所有弱学习者的预测结果以获得最终的预测结果。
基于直方图的梯度提升回归()。基于直方图的梯度提升回归,该估计器比大数据集(> = 10,000)的估计器快得多。估算器本身支持缺失值(NAN)。在训练过程中,树生在每个分离点学习,并根据缺少值的样本应进入左子节点或右子节点的潜在增益来确定。在预测中,具有缺失值的样本将被分配给左子节点或右子节点。如果在训练过程中没有遇到功能的缺少值,则具有丢失值的样本将映射到带有最多样本的子节点。该算法受到启发。
。它是一个专为发布的表格数据(数据)而设计的深神经网络。它通过类似于加性模型的序列注意机制实现特征选择,并通过 - 框架实现自我监督的学习,可用于下游学习任务就像回归预测一样。
交互式网络上下文嵌入(,INCE)。 INCE是使用图形神经网络(GNN),更具体地说,是使用交互式网络嵌入的表格神经网络(GNN)的深度学习模型。编码器模型首先将每个表格数据集映射到潜在的向量或嵌入中,然后解码器模型获取这些嵌入,并使用它们来求解监督的学习任务。编码器模型由两个部分组成:嵌入和嵌入;解码器模型由用于求解回归任务的多层感知器(MLP)组成。
:以增强的组合和。该工具包实现了本地级联集成(LCE),这是一种新型的机器学习方法,进一步改善了当前的最新方法和预测性能。 LCE结合了各自的优势,并采用了一种补充多元化方法来获得更好的概括预测模型。 LCE与 - 可以与 - 与模型选择工具相互作用。
门控添加树的集成(树,门)。门是一种新颖,高性能,参数效率和计算有效的深度学习体系结构,适用于表格数据,即门控添加了树的集成(GATE)。 Gate使用以GRU启发的机制为具有内置特征选择机制的特征表示学习单元,并将其与一组可区分的非线性决策树集成在一起,以通过简单的自我注意力重新升级来实现期望。预测输出值。
用于深度自动特征学习的门控自适应网络(对于Deep of)是门的简化版本,比门更有效。 GFLU被用作主要学习单元,并在此过程中引入了一些加速机制。由于高参数调整很少,因此它易于使用和调整模型。
值得注意的是,深度学习模型有一个标准框架来建模表格数据 -
版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;
工作时间:8:00-18:00
客服电话
0755-88186625
电子邮件
admin@lanyu.com
扫码二维码
获取最新动态