请教关于多元线性回归的问题
本帖最后由 王小虾 于 2018-12-30 17:28 编辑表1使用多元线性回归,怎样校正年龄、工龄、吸烟、饮酒得到最后的P值?这个图得P值没看懂,我现在做的多元线性回归只能得到一个回归方程,做不出P值,求指教。
表2使用协方差分析能同时校正性别年龄吸烟和饮酒吗?也就是说协变量可以是两个或以上吗?如果能,具体怎样做,求指教。
多元线性回归在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
概念编辑
社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元线性回归 。
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。
但由于各个自变量的单位可能不一样,比如说一个消费水平的关系式中,工资水平、受教育程度、职业、地区、家庭负担等等因素都会影响到消费水平,而这些影响因素(自变量)的单位显然是不同的,因此自变量前系数的大小并不能说明该因素的重要程度,更简单地来说,同样工资收入,如果用元为单位就比用百元为单位所得的回归系数要小,但是工资水平对消费的影响程度并没有变,所以得想办法将各个自变量化到统一的单位上来。前面学到的标准分就有这个功能,具体到这里来说,就是将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。这时的回归方程称为标准回归方程,回归系数称为标准回归系数,表示如下:
https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D242/sign=fbd4709f70ec54e745ec1d1a8b399bfd/6d81800a19d8bc3e6bdefb6b898ba61ea9d345b9.jpg
由于都化成了标准分,所以就不再有常数项 a 了,因为各自变量都取平均水平时,因变量也应该取平均水平,而平均水平正好对应标准分 0 ,当等式两端的变量都取 0 时,常数项也就为 0 了。
多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验 。
选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。
多元线性回归公式编辑
——多元线性回归模型
1.建立模型
以二元线性回归模型为例 ,二元线性回归模型如下:
https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D179/sign=c74e6517c2177f3e1434f80a49ce3bb9/962bd40735fae6cd6d0f5cc004b30f2443a70fd3.jpg
类似的使用最小二乘法进行参数估计 :
https://gss1.bdstatic.com/-vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D232/sign=94bc7b08a2014c081d3b2fa6387a025b/6a600c338744ebf867d4929ed2f9d72a6159a7ee.jpg
https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D300/sign=5d3e534caa44ad342abf8187e0a30c08/e1fe9925bc315c60f8b59a4e86b1cb134954776b.jpg
https://gss1.bdstatic.com/-vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D299/sign=687b9f13b9b7d0a27fc90394f2ee760d/8d5494eef01f3a29e8ba266f9225bc315c607c25.jpg
2.拟合优度指标
标准误差:对y值与模型估计值之间的离差的一种度量。其计算公式为:
https://gss1.bdstatic.com/-vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D135/sign=a022ca469a2397ddd2799c076c83b216/8d5494eef01f3a29e8ef266f9225bc315c607c68.jpg
3.置信范围
置信区间的公式为:置信区间= https://gss0.bdstatic.com/94o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D68/sign=66b755c9da09b3deefbfe760cebf04c3/8326cffc1e178a8289f88d01fd03738da877e84f.jpg
其中, https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D17/sign=d235cb653aadcbef05347a01adafd75e/a5c27d1ed21b0ef419426affd6c451da80cb3eec.jpg
是自由度为 https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D34/sign=d9fa3f929a8fa0ec7bc7620927979bed/77c6a7efce1b9d1646d067c0f8deb48f8c546478.jpg
的 https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D11/sign=abf41991b1a1cd1101b67621b81265eb/7af40ad162d9f2d30404d94ea2ec8a136327cc7e.jpg
统计量数值表中的数值, https://gss3.bdstatic.com/7Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D9/sign=40e41df38e35e5dd942ca9ef7679c3/aa18972bd40735fae9ebb31895510fb30f240873.jpg
是观察值的个数, https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D14/sign=ee709edf9958d109c0e3adb6d05805e4/b8014a90f603738d9a53f183b81bb051f819ec72.jpg
是包括因变量在内的变量的个数。
多元线性回归估计方法编辑
1.普通最小二乘法
普通最小二乘法(Ordinary Least Square, OLS)通过最小化误差的平方和寻找最佳函数。通过矩阵运算求解系数矩阵:
https://gss3.bdstatic.com/7Po3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D309/sign=d9eefcebd1b44aed5d4eb8e48a1d876a/503d269759ee3d6d0a0d786a48166d224e4ade4c.jpg
2.广义最小二乘法
广义最小二乘法(Generalized Least Square)是普通最小二乘法的拓展,它允许在误差项存在异方差或自相关,或二者皆有时获得有效的系数估计值。公式如右,
https://gss1.bdstatic.com/9vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D220/sign=478d2ebacd1b9d168ec79d63c3dfb4eb/a686c9177f3e6709f876f99a38c79f3df8dc5564.jpg图1..广义最小二乘法公式
其中,Ω是残差项的协方差矩阵。
多元线性回归相关的软件编辑
SPSS(Statistical Package for the Social Science)--社会科学统计软件包是世界著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,从而确立了个人用户市场第一的地位。同时SPSS公司推行本土化策略,目前已推出9个语种版本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。目前已经在国内逐渐流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。
SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。和国际上几种统计分析软件比较,它的优越性更加突出。在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分的统计中,其诸项功能均获得最高分 。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。最新的14.0版采用DAA(Distributed AnalysisArchitechture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,依靠于诸多竞争对手。但是它很难与一般办公软件如Office或是WPS2000直接兼容,在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表,已经遭到诸多统计学人士的批评;而且SPSS作为三大综合性统计软件之一,其统计分析功能与另外两个软件即SAS和BMDP相比仍有一定欠缺。
虽然如此,SPSS for Windows由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、生物学、心理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。
Matlab、spss、SAS等软件都是进行多元线性回归的常用软件。
参考资料. 叶锋. 多元线性回归在经济技术产量预测中的应用. 中外能源,2015,02:45-48. 2. 代亮,许宏科,陈婷,钱超,梁殿鹏. 基于MapReduce的多元线性回归预测模型. 计算机应用,2014,07:1862-1866. 3. 冷建飞,高旭,朱嘉平. 多元线性回归统计预测模型的应用. 统计与决策,2016,07:82-85.
页:
[1]