请输入您要查询的百科知识:

 

词条 一元线性回归法
释义

概念

如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。详细原理这里就不细说了,具体参照线性回归。

数据组说明线性回归

我们以一简单数据组来说明什么是线性回归。假设有一组数据型态为 y=y(x),其中

x={0, 1, 2, 3, 4, 5}, y={0, 20, 60, 68, 77, 110}

如果我们要以一个最简单的方程式来近似这组数据,则非一阶的线性方程式莫属。先将这组数据绘图如下

图中的斜线是我们随意假设一阶线性方程式 y=20x,用以代表这些数据的一个方程式。以下将上述绘图的 MATLAB 指令列出,并计算这个线性方程式的 y 值与原数据 y 值间误差平方的总合。

>> x=[0 1 2 3 4 5];

>> y=[0 20 60 68 77 110];

>> y1=20*x; % 一阶线性方程式的 y1 值

>> sum_sq = sum((y-y1).^2); % 误差平方总和为 573

>> axis([-1,6,-20,120])

>> plot(x,y1,x,y,'o'), title('Linear estimate'), grid

如此任意的假设一个线性方程式并无根据,如果换成其它人来设定就可能采用不同的线性方程式;所以我们必须要有比较精确方式决定理想的线性方程式。我们可以要求误差平方的总和为最小,做为决定理想的线性方程式的准则,这样的方法就称为最小平方误差(least squares error)或是线性回归。MATLAB的polyfit函数提供了 从一阶到高阶多项式的回归法,其语法为polyfit(x,y,n),其中x,y为输入数据组n为多项式的阶数,n=1就是一阶 的线性回归法。polyfit函数所建立的多项式可以写成

从polyfit函数得到的输出值就是上述的各项系数,以一阶线性回归为例n=1,所以只有 二个输出值。如果指令为coef=polyfit(x,y,n),则coef(1)= , coef(2)=,...,coef(n+1)= 。注意上式对n 阶的多 项式会有 n+1 项的系数。我们来看以下的线性回归的示范:

>> x=[0 1 2 3 4 5];

>> y=[0 20 60 68 77 110];

>> coef=polyfit(x,y,1); % coef 代表线性回归的二个输出值

>> a0=coef(1); a1=coef(2);

>> ybest=a0*x+a1; % 由线性回归产生的一阶方程式

>> sum_sq=sum(y-ybest).^2); % 误差平方总合为 356.82

>> axis([-1,6,-20,120])

>> plot(x,ybest,x,y,'o'), title('Linear regression estimate'), grid

线性回归拟合方程

最小二乘法

一般来说,线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线,其经验拟合方程如下:

其相关系数(即通常说的拟合的好坏)可以用以下公式来计算:

理解回归分析的结果

虽然不同的统计软件可能会用不同的格式给出回归的结果,但是它们的基本内容是一致的。我们以STATA的输出为例来说明如何理解回归分析的结果。在这个例子中,我们测试读者的性别(gender),年龄(age),知识程度(know)与文档的次序(noofdoc)对他们所觉得的文档质量(relevance)的影响。

输出:

Source | SS df MS Number of obs = 242

-------------+------------------------------------------ F ( 4, 237) = 2.76

Model | 14.0069855 4 3.50174637 Prob > F = 0.0283

Residual | 300.279172 237 1.26700072 R-squared = 0.0446

------------- +------------------------------------------- Adj R-squared = 0.0284

Total | 314.286157 241 1.30409194 Root MSE = 1.1256

------------------------------------------------------------------------------------------------

relevance | Coef. Std. Err. t P>|t| Beta

---------------+--------------------------------------------------------------------------------

gender | -.2111061 .1627241 -1.30 0.196 -.0825009

age | -.1020986 .0486324 -2.10 0.037 -.1341841

know | .0022537 .0535243 0.04 0.966 .0026877

noofdoc | -.3291053 .1382645 -2.38 0.018 -.1513428

_cons | 7.334757 1.072246 6.84 0.000 .

-------------------------------------------------------------------------------------------

输出

这个输出包括一下及部分。左上角给出方差分析表,右上角是模型拟合综合参数。下方的表给出了具体变量的回归系数。方差分析表对大部分的行为研究者来讲不是很重要,我们不做讨论。在拟合综合参数中, R-squared 表示因变量中多大的一部分信息可以被自变量解释。在这里是4.46%,相当小。

回归系数

一般地,我们要求这个值大于5%。对大部分的行为研究者来讲,最重要的是回归系数。我们看到,年龄增加1个单位,文档的质量就下降 -.1020986个单位,表明年长的人对文档质量的评价会更低。这个变量相应的t值是 -2.10,绝对值大于2,p值也<0.05,所以是显著的。我们的结论是,年长的人对文档质量的评价会更低,这个影响不是显著的。相反,领域知识越丰富的人,对文档的质量评估会更高,但是这个影响不是显著的。这种对回归系数的理解就是使用回归分析进行假设检验的过程。

编辑本段回归误差

由于线性回归是直接计算的,故其误差可确定

扩展阅读: 1 《概率统计》

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/1/9 18:48:01