第八章 相关分析与回归分析习题参考答案
一、名词解释
函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。
相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。这种关系不能用完全确定的函数来表示。
相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。
回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。 单相关:单相关是指仅涉及两个变量的相关关系。
复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。
正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。
负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。
非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。取值在-1到1之间。两个变量之间的简单样本相关系数的计算公式为:
r???x?x??y?y?iii?1n
2??xi?x?i?1n2??y?y?ii?1n二、单项选择
1.B; 2.D; 3.D; 4.C; 5.A; 6.D。
三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题
1、什么是相关关系?相关关系与函数关系有什么区别?
答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。
这种关系不能用完全确定的函数来表示。
相关关系与函数关系的区别:函数关系是指变量(现象)之间存在的严格确定的依存关系。相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。 2.、什么是相关分析与回归分析?二者有什么区别与联系?
答:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法。回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。
这两种分析既相互联系又相互区别。联系是:它们在研究现象间相互依存关系时,是相互补充相互渗透的。在实际应用中,一般先进行定性的相关分析;然后计算相关系数,拟合适当的回归方程,进行显著性检验;最后用回归方程进行推算和预测。区别是:相关分析研究的变量都是随机变量,不需要区分因变量和自变量,并且侧重研究两变量间线性相关的密切程度;回归分析中必须区分因变量和自变量,自变量是确定的一般变量,而因变量是随机变量,它不仅能够揭示自变量对因变量的影响大小,还可以利用回归方程进行预测和控制。 3、 简述相关关系的种类及其各种类的含义。
答:(一)按相关的密切程度可分为完全相关、不完全相关和不相关
若某一变量的取值完全由另一个或一组变量的值所决定,这种相关关系称为完全相关。因此,完全相关也就是变量间的一种确定的函数关系。若某一变量的取值与另一个或一组变量的取值相互独立,则变量之间没有相关关系,称为不相关。若变量间的关系介于完全相关与不相关之间,则称为不完全相关。
(二)按表现形态可分为线性相关和非线性相关
如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
(三)按相关的方向可分为正相关和负相关
正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
(四)按研究变量的多少可分为单相关、复相关和偏向关。
单相关是指仅涉及两个变量的相关关系。复相关是指一个变量对两个或者两个以上其他变量的相关关系。在某一变量与多个变量相关的场合,若假定其他变量不变时,其中两个变量间的关系称为偏相关。
4.、简述相关系数的含义及其作用。 答:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标,样本相关系数用r表示,取值一般介于-1到1之间。r>0为正相关,r<0为负相关,r=0表示不相关;r?1表明x与y之间具有完全线性相关关系。r?1表明x与y完全正相关,即y的取值与x取值变化方向相同;r??1表明x与y完全负相关,即y的取值与x取值变化方向相反. 5.、一元线性回归模型的基本假设条件有哪些?
答:假设1:随机误差项?i具有零均值,同方差性,即
E??i??0,
Var??i???2,i?1,2,L,n
假设2:随机误差项之间不存在序列相关关系,即
Cov??i,?j??0,i?j,i,j?1,2,L,n假设4:随机误差项?i服从零均值、同方差的正态分布,即
假设3:解释变量xi是确定性变量,且与随机误差项之间线性无关。
?i~N?0,?2?,i?1,2,L,n
6、多元线性回归模型的基本假设条件有哪些?
答:假设1:随机误差项?i具有零均值,同方差性,即
E??i??0,
Var??i???2,i?1,2,L,n
假设2:随机误差项之间不存在序列相关关系,即
Cov??i,?j??0,i?j,i,j?1,2,L,n即rank?X??k?1,Covxji,?i?0,i?j,i,j?1,2,L,n
假设3:解释变量xji是确定性变量,相互之间互不相关,且与随机误差项之间线性无关,
??假设4:随机误差项?i服从零均值、同方差的正态分布,即
?i~N?0,?2?7、简述回归分析中F检验内容。
,i?1,2,L,n
答:回归方程的显著性F检验,就是对模型中的被解释变量与解释变量之间的线性关系
L,?k 是否全为0。若在总体上是否显著成立做出判断。实际上就是判断回归系数?1,?2,?1,?2,L,?k全为0,L,?k至随机变量y与x1,x2,L,xk之间的线性关系不合适。若?1,?2,少有一个不为0 ,则表明解释变量x1,x2,L,xk对y的影响是显著的。步骤如下:
1.提出假设,原假设H0:?1??2?L??k?0,备择假设H1:?1,?2,L,?k不全为0
2.构造统计量F?SSRk,在原假设H0:?1??2?L??k?0成立的条件
SSE?n?k?1?下,上述统计量F~F?k,n?k?1?。
3.计算F?SSRk的值。
SSE?n?k?1?~F?k,n?k?1?的值,并与方差分析表中统计
量F的数值进行比较,若F?F?k,n?k?1?,拒绝原假设,认为总体回归方程中各解释变量与被解释变量的线性关系是显著的。若F?F?k,n?k?1?,拒绝原假设,则认为总回
4.给定显著性水平?,在附表中查找F归方程不显著,所建立的回归模型没有意义。 8、简述回归系数显著性t检验的内容。
?j?1,2,L,k?对y的影响是否显著,相当于
检验假设:原假设H0:?j?0,备择假设H1:?j?0,?j?1,2,L,k?。若拒绝原假设,
答:回归系数显著性t检验针对某变量xj则表明xj对y的影响显著;若接受原假设,则表明xj对y的影响不显著,应从模型中删除该变量。步骤如下:
1.提出假设,原假设H0:?j?0,备择假设H1:?j?0,?j?1,2,L,k?。
2.构造t统计量:t???j?cjj?~t?n?k?1?
2?t?2?n?k?1?时,拒绝原假
设,可以认为在显著性水平?下,xj对y的影响显著。当t?t?2?n?k?1?时,接受原假设,认为在显著性水平?下,xj对y的影响不显著。
3..给定显著性水平?,查出临界值t?五、计算题 1、解:
(1)由最小二乘法原理,令Q??n?k?1?,当t?i???yi?yi?1n2??i?1n??xyi??i?2,将Q对?求一阶导数,并
n?dQdn?x令其为0,?yi???i?d??i?1d???i2???xx?0,解得:??2?yi??iii?1n???xyii?1ni
2i?xi?1??显然有:E???1?xi?12n2i?1?xE?y???,Var?????in1?2?x??i??i?1?n2?xVar?y??2iii?1n?2i?xi?1n
2i由于
?i???SSE???yi?yi?1i?1n2nn??x?xi??i??i?2????????i?1?nn??2???x??, xi2??i2?2?ii??????nVar????2xE?有E?SSE???xiVar??i?xi??2?n?2?2?2??n?1??2, ii?1i?1????从而?的无偏估计是
2SSE。 n?1?x,于是 ?0??对给定的x0,对应的因变量均值的估计为y0x02?2??0??x0Var??nVar?y?xi22??i?1
2、(1)散点图略 (2)样本相关系数
r??xy?12?x?yiii?112?xi?1122i?12?x?2?yi?112?2i?12?y295.8050?93.3375?0.973990.3194?0.300829304.25?28959.19
(3)由样本相关系数r的值可知,两变量有高度线性相关性,可建立回归方程
??????x,由?yi??101i?xy?nx?yiii?1n?xi?1n2i?nx2??y???x?28.12, ?132.66,?01因而回归方程为:yi?28.12?132.66xi (4)原假设H0:?1?0;备择假设H1:?1?0 检验统计量F?SSR1
SSE?n?2?SSR1327.34??184.94
SSE?n?2?17.72/10在原假设成立时F? F0.01?1,10??10.04,因为184.94>10.04,拒绝原假设,在0.01的显著性水平下回归方程是显著的。
?0?28.12?132.66?0.17?50.67,取??0.01,则(5)当x?0.17时,预测值为 y??t0.005?10??3.1693,又?置信区间为
SSE17.72??1.3312,应用( 8.21),得y0的99%的n?212?21?0.17?0.1583?49.35?1.3312?3.1693?1???49.35?4.41??44.94,53.76? 120.01863、(1)回归方程为:yi?37.65?4.425x1i?4.375x2i
2(2)方程分析表
回归分析 残差 总计
df
2 13 15 SS MS F Significance F 1872.7 936.35 129.0832 2.65826E-09 94.3 7.253846
1967
在??0.01的显著性水平下,回归方程是显著的。
(3)由下表中P-value的值可以判断,回归系数?1与?2都是显著的。
Intercept Coefficients 标准误差 t Stat P-value
37.65 2.996103 12.56632 1.2E-08
第八章 相关分析与回归分析习题答案



