首页/知天下事/正文
从线性模型到广义线性模型:模型假设篇及GLM的全面解析

 2025年03月18日  阅读 24

摘要:参考从线性模型开始,接着到广义线性模型。这是关于模型假设的一篇内容,在统计之都()可以看到。一、广义线性模型和线性模型1972年,和提出并发表了广义线性模型(GLM)。该模型旨在解决普通线性回归模型无法处理因变量离散的问题,并发展出能够处理非正态因变量...

参考

从线性模型开始,接着到广义线性模型。这是关于模型假设的一篇内容,在统计之都()可以看到。

一、广义线性模型和线性模型

1972 年,和提出并发表了广义线性模型(GLM)。该模型旨在解决普通线性回归模型无法处理因变量离散的问题,并发展出能够处理非正态因变量的回归建模任务的方法。

在广义线性模型的框架里,因变量不再必须是连续且正态的。同时,自变量也没有特别的要求。它能够对诸如正态分布、二项分布、泊松分布等随机因变量进行建模。

通俗来讲,广义线性模型是普通线性模型的一种普遍化形式。如果把普通线性回归模型称作狭义线性模型,那么广义线性模型中存在一种情况,即因变量服从正态分布,而这种情况就是广义线性模型的一个特例。

二、广义线性模型的适用范围

结果变量属于类别。其中包含二分类变量,其类别为是与否。还包含多分类变量,其类别有优秀、良好以及差。

结果变量为非负整数,包括结婚次数以及一生中流产的次数,这些变量的均值和方差通常是相互关联的。

建模方法论

1) 假设因变量服从某个随机分布,如正态分布、二项分布

根据上述假设分布来构建因变量的转换形式,并且可以参考下文的链接函数。

3) 对转换后的随机变量进行线性拟合

三种常见的广义线性模型

正态分布(特殊类型的广义线性模型)

.png

二项分布变量

.png

泊松分布

.png

三、广义线性模型的R语言实现

使用 glm 函数,其公式为,族为高斯分布,数据为指定数据,权重为特定权重,子集为指定子集,
na.action 的 start 为 NULL,还有 etastart、mustart 和 offset。
控制 = 列表(...), 模型 = 真, 方法 = "glm.fit"
x 为 FALSE,y 为 TRUE,singular.ok 为 TRUE,contrasts 为 NULL,还有其他一些参数(用“...”表示)。

概率分布及连接函数

(link = "")

(link = "")

(link = "")

.(link = "1/mu^2")

(link = "log")

(link = "", = "")

(link = "")

(link = "log")

广义的学习_广义的学习_广义的学习

使用以下函数提取拟合模型中的有用信息

.png

1、展示数据并构建模型

使用数据展示回归

# get summary statistics
data(Affairs, package="AER")
summary(Affairs)
table(Affairs$affairs)

.png

创建一个二分类的结果变量。
如果 Affairs$ynaffair 中的 Affairs$affairs 大于 0 。<- 1
Affairs$ynaffair[Affairs$affairs == 0] <- 0
Affairs$ynaffair <- factor(Affairs$ynaffair, 
                           levels=c(0,1),
                           labels=c("No","Yes"))
table(Affairs$ynaffair)

为了演示,这里生成一个二分类变量(是否婚外遇)

.png

# fit full model
fit.full <- glm(ynaffair ~ gender + age + yearsmarried + children + 
                  religiousness + education + occupation +rating,
                data=Affairs,family=binomial())
summary(fit.full)

把所有变量都纳入回归方程,从而得到 fit.full,接着使用函数来查看一下该模型的内部构成。

.png

广义的学习_广义的学习_广义的学习

# fit reduced model
fit.reduced <- glm(ynaffair ~ age + yearsmarried + religiousness + 
                     rating, data=Affairs, family=binomial())
summary(fit.reduced)

接下来将有意义的进一步纳入回归,然后 看一下函数内部:

.png

2、模型间比较

可以看到,fit.full 和 fit.的 AIC 差异并不是很大。之后我们会继续学习 AIC 的含义。在此,我们简单介绍一下,AIC 越接近 0 就代表模型越优。

为了进一步比较两个模型,使用函数比较

# compare models
使用 anova 函数对 fit.reduced 和 fit.full 进行比较,测试类型为"Chisq"

.png

可以看到p值大于0.05,两个模型差异无统计学意义。

3、模型中关键参数的提取

coef 与所得结果相同,其皆为每个变量的系数。在进行反对数操作后,能够得到每个变量的 OR 值(相对风险)。

coef(fit.full)
coefficients(fit.full)
exp(coef(fit.full))

.png

本篇的篇幅到此为止不再增加了,下一篇会接着进行广义线性模型的预测,还会进行效能评估以及列线图等方面的展示。

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/11026.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
广文舒阅网—让天下读者有家可归!这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
广文舒阅网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:京ICP备20013102号-1