课程内容
《回归分析的基本思想及其初步应用》
在现实中,我们经常会遇到类似下面的问题:
肺癌是严重威胁人类生命的一种疾病,吸烟与患肺癌有关系吗?肥胖是影响人类健康的一个重要因素,身高和体重之间是否存在线性相关关系?等等。
为了回答这些问题,必须明确问题涉及的对象(总体)是什么?用怎么的量来描述要解决的问题,并确定获取变量值(数据)的方法,然后用恰当的方法分析数据,以得到最可靠的结论。
在必修模块中,我们学习过关于抽样、用样本估计总体、线性回归基本知识,本章中,我们
将在此基础上,通过对典型例安的讨论,进一步讨论线性回归分析方法及其应用,并初步了解独立性检验的基本思想,认识统计方法在决策中的作用。
我们知道,函数关系是一种确定性关系,而相关关系是一种非确定关系,回归分析(regression analysis)是对具有相关关系的两个变量进行统计分析的一种常用方法。在《数学3》中,我两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为画散点图,求回归直线方程,并用回归直线方程进行预报。
探究:对于一组具有线性相关关系的数据(X1,Y1),(X2,Y2),…,(Xn,Yn),我们知道其回归方程的截距和斜率的最小二乘估计公式分为:
^a=(-,y)-^b(-,x)(1)
^b=(nΣi=1){(xi-(-,x))(yi-(-,y))/(nΣi=1)(xi-(-,x))2,(2)
其中(-,x)=1/n (nΣi=1)xi,(-,y)=(nΣi=1)yi.((-,x)(-,y))称为样本点的中心。
回归直线过样本的中心。
例1:从某大学中随机选取8名女大学生,其身高和体重数据如表3-1所示。
编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
身高(cm) | 165 | 165 | 157 | 170 | 175 | 165 | 155 | 170 |
体重(kg) | 48 | 57 | 50 | 54 | 64 | 61 | 43 | 59 |
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。
解:由于问题中要求根据身高预报体重,因此选取身高为自变量x,真实体重为因变量y,作散点图。
从图中可以看出,样本点呈条状分布,身高和体重比较好的线性相关关系,因此可以用纪律性回归方程刻画它们之间的关系。
根据探究中的公式(1)和(2),可以得到
^a=-85.712,^b=0.849。
于是得到回归方程^y=0.849-85.712。
所以,对身高为172cm的女大学生,由回归方程可以预报其体重为
y=0.849×172-85.712=60.316(kg)。
b=0.849是斜率的估计身高x每单位时,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系,如何描述它们之间线性相关关系的强弱?
在必修3中,我们介绍了用相关系数r来衡量两个变量之间线性相关关系的方法,样本相关系数的具体计算公式为:
r=(nΣi=1){(xi-(-,x))(yi-(-,y))/√{(nΣi=1)(xi-(-,x))2(nΣi=1)(xi-(-,x))2 }。
当r﹥0时,表明两个变量正相关,当r<0时,表明两个变量负相关r的绝对值越接近1,表明两个变量的线性相关性超强;r越接近于0时,表明两个变量之间几乎不存在线性相关的关系,通常,当r大于0.75时,认为两个变量有很强的线性相关关系。
在本人例中,可以计算的线性r=0.798,这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的。
探究:身高172cm的女大学生的体重一定是60.316kg吗?如果不是,其原因是什么?
显然,身高172cm的女大学生的体重不一定是60.316kg但一般可以认为她的体重接近于60.316kg,图3.1-2中的样本点和回归直线的相互位置说明了这一点。
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系,可以用下面的线性回归模型来表示:y=bx+a+e,(3)
与函数相关不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。
我们可以用下面的线性回归模型来表示:
y=bx+a+e,
其中a和b为模型的未知参数,e称为随机误差。
值^y与真实值y之间的误差的原因之一,其大小取决于随机误差。
别一方面,由于公式(1)和(2)中的^a和^b为截距和斜率的估计值,它们与真实值a和b之间的也存在误差,这种误差是引起预报值^y与真实值y之间误差的另一个原因。
思考 产生随机误差项e的原因是什么?
实际上,一个人的体重除了受身高的影响外,还受许多其他因素的影响,例如饮食习惯、是否喜欢运动,度量误差等,另外,我们选用的线性模型往往只是一种近似的模型,所有这些因素都会导致随机误差项e的产生。
探究 在线性回归模型中e是用(-,y)预报真实值y的误差,它是一个不可观测的量,那么应该怎么样研究随机误差?如何衡量预报的精度?
解决问题有途径是通过样本的估计来研究。
根据截距和斜率的估计公式(1)和(2),可以建立回归方程^y=^bx+^a,
因此^y是(5)中~y的估计值,由于随机误差e=y-~y,
所以^e=y-^y是e的估计量。
对于样本点(X1,Y1),(X2,Y2),…,(Xn,Yn),
而言,相应它们的随机误差为
e1=y1-~y1=y1-^bx1-a,i=1,2,…,n。
其估计值为
e1=y1-~y1=y1-^bx1-a,i=1,2,…,n。
在研究两个变量的关系时,首先要根据散点图来粗略判断它们是否相线性相关,是否可以用线性回归模型来拟合数据,然后,可以通过残差^e1,^e2,…,^en。来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
身高/cm | 165 | 165 | 157 | 170 | 175 | 165 | 155 | 170 |
体重/kg | 48 | 57 | 50 | 54 | 64 | 61 | 43 | 59 |
残差^e | -6.373 | 2.627 | 2.419 | -4.618 | 1.137 | 6.627 | -2.883 | 0.382 |
我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可选为样本编号,或身高数据,或体重估计值等,这样作出的图形为残差图。图3.1-3是以样本编号为横坐标的残差图。
从图3.1-3中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本过程中是否有人为的错误,如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据数据采集没有错误,则需要寻找其他的原因,另外,残差点比较均匀地落在水平的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精确度越高。
另外,我们还可以用相关指数R2来刻画回归效果:
其计算公式是:R2=1-(nΣi=1){(yi-^yi)2/(nΣi=1)(yi-(-,y)2。
在含有一个解释变量的线性模型中R2恰好等于相关系数r的平方。
显然,R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果真好,在线性回归模型中R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的线性相关性超强),如果对某组数据可能性采取几种不同的回归方程进行分析,也可以通过比较几个R2,选择R2大的模型作为这组数据的模型。
在例1中R2=0.64,表明“女大学生身高解释了64%的体重变化”,或者说“女大学生体重差异有64%是由身高引起的”。
用身高预报体重时,需要注意下列问题:
1.回归方程只适用于我们所研究的样本的单体,例如,不能用女大学生的身高和体重之间的回归方程描述女运动员的身高和体重之间的关系,同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高卢直径之间的关系。
此内容正在抓紧时间编辑中,请耐心等待
孙老师
男,中教高级职称
在教学中勤恳敬业,教学成绩优异,多次被评为“优秀数学教师”称号。