直线回归方程中截距的标准差怎么求 [理工科]
发布网友
发布时间:2022-05-07 08:33
我来回答
共4个回答
热心网友
时间:2023-10-22 16:33
回归是指由一个 ( 或几个 ) 变数的变化来预测另一个变数的变化。预测的方法是通过回归方程来实现的,回归分析的方法在园艺植物的生产和科学研究中有着广泛的应用,如利用温度或雨量的变化,预测某种园艺植物的主要物侯期 ( 萌芽、开花 ) 、产量、品质以及病虫害发生,应用实生苗的某些性状,预测成年树的某些性状等。�
一、直线回归方程式�
将 x 与 y 两个变数的 n 对观察值 ( ) , ( ) ,…… ( ) 分别以座标点的形式标记于同一直角座标平面上,作成散点图,如果这两个变数的 n 对观察值在散点图上呈线性,则说明两变数间的数量关系可用直线回归方程来表示。在解析几何上,表示一个平面上的任何直线方程的一般形式为:�
(10.1) �
上式称为“ y 依 x 的直线回归方程”, x 是自变数。 是和 x 的量相对应的依变数 y 的点估测值。 a 是 x=0 时的 值,也是回归直线在 y 轴上的截距,叫做回归截距。 b 是回归系数,表示 x 每增加一个单位, 平均将要增加 (b > 0) 或减少 (b < 0) 的单位数。�
要使 成为实际资料的最佳线性配合,并满足预测要求,必须使离回归平方和 = 最小。�
为使 = 最小,需分别对 a 和 b 求偏导数,并令之为 0 :�
则 :
简化以上二式,得一组联立方程式:
由方程式 (1) 得 (10.2) �
将 (10.2) 式代入方程式 (2) ,并展开、合并、移项后,得:
� ( 10.3 )
( 10.3 )中的分子为 x 和 y 变数的离均差的乘积和 (sum of procts) ,记作 SP 。
上述求解 a 和 b 的程序称为最小平方法。由此 a 和 b 构成的回归方程具有三个基本性质: 1 、 = 最小。 2 、 。 3 、当 时, ,回归直线必通过点 ( ) 。因为将 (10.2) 式代入 (10.1) 式后可得直线回归方程的另一常见形式为:� ( 10.4 )
将 代如此式,得 。
由于 具有上述三个基本特征,所以该方程是实际资料的线性最佳配合。
二、直线回归方程式的计算及回归直线图�
例 10-1 :表 10-1 为某砂梨品种 1983 年在江苏扬州盛花后天数与果实细胞数增长的关系,试建立回归方程:�
表 10-1 盛花后天数与梨果实细胞数
盛花后天数( X )
果实细胞数(
7
0.56
14
1.25
21
2.07
28
2.66
35
2.83
�
将例 10-1 的 5 对观察值做成散点图 ( 图 10-1) ,呈现较明显的直线趋势,果实细胞数随着盛花后天数的增加而增加。在建立该资料回归方程时,首先需计算出 6 个一级数据:
�
n=5 �
由 6 个一级数据可算得 5 个 2 级数据:�
�
将上述二级数据分别代入公式 (10.3) 和 (10.2) 得:
�
表 (10-1) 资料的直线回归方程为:�
此方程表明,在盛花后 7 天至 35 天这段时期,每天梨果实的细胞数可平均增加 8.50 × 10 个,回归截距 a 在此没有专业意义。如将该直线方程作图表示时,可把观察值中 x 的最小和最大值代入该方程式:�
当 x=7 时, ,当 x=35 时,
将 (7 , 0.6840) 和 (35 , 3.0640) 两座标点在图上连成一条直线,如图 (10-1) 所示。为验证这一方程式是否正确,根据前述直线回归方程性质 3 ,可将 代入方程式,如果 ,则一定正确。本例将 代入得:
�
由此,也可核对作图是否正确。
图 10-1 盛花后天数与梨果实细胞数增长的关系
在作回归直线图时,以 x 变数为横坐标, y 变数为纵坐标,并标明名称和单位。若不是以零起始的,要在近原点处划一折断号。划出直线图后,应将实际观察各点标明在图上,且将回归方程以及相关系数(或决定系数)分别标于直线的上方或下方。同时应注意,绘制的回归直线两端不要超出 x 变数的取值范围。
例 10-2 :取粉皮冬瓜雌花谢花后7--11天的果实,测其果实纵径( cm ),得结果于表 10-2 。试求直线回归方程。
表 10-2 粉皮冬瓜雌花谢花后天数与果实纵径关系
谢花后天数
7 8 9 10 11
果实纵径(cm)
14.3 16.8 17.2 17.6 18.5
按例 10-1 的计算方法可得:
得回归方程:
b= 0.92cm 表示该冬瓜雌花谢花后 7--11天内,每增长一天,果实纵径平均增加 0.92cm ; a=8.60 在此资料中有专业意义,表示雌花还未谢时(即将谢花),果实纵径平均为 8.60cm 。
三、直线回归方程估计标准误�
图 10-1 可见,由回归方程所得到的理论值 ,通常并不能和实际观察值 (y) 相吻合,但回归方程满足 = 最小这一基本性质。因此, 是各个 上 y 总体平均数的最好估计,这就如同在一个变数的随机样本中, 的代表性要比任一观察值 更为合理。由于在回归模型中,各个 上都有一个 y 总体分布,为了衡量回归方程的预测精确度,必须了解这些 y 总体分布的标准差或变异度。这个标准差或变异度的统计数叫做直线回归的估计标准误,也称离回归标准差,记作 ,计算公式为:�
( 10.5 )
的意义在于各观察值 (y) 与预测值 ( ) 愈接近,即各散点愈近于回归直线, 愈小,如果散点均落在直线上,则 = 0 ;反之,离开回归直线愈远,则 愈大。
公式 (10.5) 中, Q 称为离回归平方和或剩余平方和。因为各散点的 y 值与对应预测值 ( ) 的差异 ( ) ,其值有正有负, ,故须将各 ( ) 先平方,再累加起来,这与计算单变数样本平方和的道理是一样的。由于在建立直线回归方程时,用了 a 和 b 两个统计数,故 的自由度应为 =n-2 。�
由于用 直接计算 Q 时,步骤多而繁锁,加之如保留末位数不够,易产生较大计算误差,常采用以下恒等式计算:
因
故 ( 10.6 )
(10.7)
(10.8)
上述三个公式中,以( 10.6 )式的计算结果最为精确,因为( 10.6 )式中均使用二级数据,而公式( 10.7 )和( 10.8) 中,不仅使用了二级数据,也使用了*数据,而*数据往往因小数点后保留的末位数不足,影响到 Q 值的精确度,故实际计算 Q 值时,以使用公式( 10.6 )为好。�
例 10-3 :试计算表 10-1 和表 10-2 资料的直线回归估计标准误�
由表 10-1 资料已计算出:
=3.6861 =490.0000 SP=41.6500 �
代入公式( 10.6 )得:�
Q=3.6861-
将 Q=0.1459 代入公式 (10.5) 得:�
( 个)
上述计算说明:用回归方程 =0.0890+0.0850X 表示盛花后天数与果实细胞数之间的回归关系,有一个 =0.2205 的估计标准误。
由表 10-1 资料已计算出:
=9.908 =10 SP=9.200 �
Q=9.908
= (cm)
=0.694 说明由 =8.60+0.92x 估测果实纵径 y 时,有一个 =0.694 的估测标准误。
的统计意义是:在 ± 区间内,可期望包括 68.27% 的 y 观察值;在 ± 2 区间内,可期望包括 95.45% 的 y 观察值;在 ± 3 区间内,可期望包括 99.73% 的 y 观察值;在 ± 1.96 区间内,可期望包括 95% 的 y 观察值;在 ± 2.58 区间内,可期望包括 99% 的 y 观察值。
四、直线回归模型
在双变数资料中,观察值 的直线回归数学模型为:
(10.9)
( )
因 ,上述模型也可写为:
(10.10) �
且有:
上面式中, 为 y 在各 上正态分布的总体平均数,其样本估计值为 ; 和 分别为 y 和 x 两变数的总体平均数,样本估计值是 和 ,α和β是直线回归总体的回归截距和回归系数,样本估计值分别是 a 和 b 。
本章所述直线回归分析,是建立在 (10.9) 式 (10.10) 基本之上的。了解建立回归模型的两个基本前提,有助于正确地进行回归分析。�
1. 在可能取值区间内,任一 x 值上都存在着一个 y 变数的正态分布总体, x 是没有误差或误差很小的固定变数, y 是随机变数。如果 x 和 y 都是随机变数,则为相关模型。�
2. 各 上的所有 y 总体都服从 的正态分布。即 y 变数有共同的方差 ( ),而总体平均数 ,则随 x 的不同而呈直线变化,变化关系为:�
(10.11) �
在实际应用回归分析时,完全满足上述两个前提的资料并不多见。比如 x 是没有误差或误差很小的固定变数就不易满足;在每一固定的 x 上的 y 总体都属于等方差且平均数呈线性这个条件亦不易满足。因此,直线回归分析结果大多是近似的。一般情况下,当 x 的各个水平皆可控时 ( 这在经过设计的试验中是常遇的,例如肥料试验,各种施肥量是固定可控的 ) ; x 和 y 具有自变数和依变数的关系时;需要由 x 预测 y 时,可以选用回归模型,
五、直线回归的显著性测验�
任何一个双变数资料,若其总体并不存在直线回归关系,但对所属的一个随机样本资料,利用上述方法,仍可建立一个直线回归方程。为了确定是否有真实的直线回归关系,一是需要有关专业知识提供理论基础,二是必须测定该样本来自无直线回归关系的总体的概率大小,当这种概率 P < 0.05 时,我们才能冒较小的危险,确认其所属总体存在着真实的直线回归关系,这就是直线回归的显著性测验,其测验方法可利用 F 测验或 t 测验进行。�
1 、 F 测验�
已知公式 10.4 为:
�
则
等式两边平方,累加得:�
移项得:�
(10.12)
恒等式 (10.12) 亦可写为:�
( 10.13 )
�
上式中, 是方差分析中,经常使用的离均差平方和 ( ) , df=n-1 ; 则是前述的离回归开方和 (Q) ,它与 b 和 X 的变化无关,实际上是回归方程估计误差平方和, = n-2, 离回归均方 ; 是由回归系数 b 的效应和 X 的变化而占有的平方和,故称之为回归平方和,记作 U ,具自由度 dfu=(n-1)-(n-2)=1 ,回归均方 为:�
(10.14)
( 10.13) 式表明,在双变数资料中, y 变数的离均差平方和可分解为回归平方和 (U) 和离回归平方和 (Q) 两部分。因此,如果 y 的变化和 x 的变化无关,说明两变数间无直线回归关系, ,则 = , 是 y 变数的最适合代表值,如果 y 的变化和 x 的变化有关,则 U 值必须显著大于离回归均方 ,表明用 表示 y 变数,要比用 表示更为合理。�
由于回归均方和离回归均方的比值遵循 的 F 分布,则由:�
(10.15) �
可测验直线回归的显著性�
例 10-4: 测验表 10-1 资料回归关系的显著性。�
在例 10-1 和 10-3 已算得, =3.6861 , Q=0.1459 �
则 U= - Q =3.6861-0.1459=3.5402
:盛花后天数与梨果实细胞数的增长之间无直线回归关系, :有直线回归关系方差分析于表 10-3 �
表 10-3 例 10-1 资料回归关系显著性测验�
变异来源
df
SS
MS
F
回 归
离回归
1
3
3.5402
0.1459
3.5402
0.0486
72.844
10.13 34.12
总变异
4
3.6861
因表 10-3 得到 F=72.844 > =34.12 ,故否定 ,推断表 10-1 资料有极显著的直线回归关系。�
2 、 t 测验�
这是测验样本回归系数 b 来自β =0 总体的概率大小,如果这种概率 P < 0.05 ,我们则可以较小的风险,确认该样本所属总体存在着直线回归关系,反之,则认为该样本所属总体无直线回归关系。从统计意义上看,回归系数的显著性测验,实际上也是对回归关系的显著性测验。与样本平均数显著性测验时,需首先计算出平均数的标准误 一样,对回归系数进行 t 测验时,也需计算出回归系数的标准误 。即:
� (10.16) �
则 或 (10.17) �
遵循 df=n-2 的 t 分布。测验时的假设是 :β =0 , :β≠ 0 ,如| t |< ,
接受 ;| t |≥ ,则否定 ,接受 。�
例 10-5: 利用 t 测验,对表 10-1 资料进行直线回归显著性测验。�
假设 :β =0 , :β≠ 0 �
已知: b=0.0850 , Q=0.1459 , =490.0000 �
由公式 (10.16) 和 (10.17) ,得:
�
查 t 值表, df =3 时, =3.183 , , | t | =8.5341 > ,则否定 ,接受 ,表 9-1 资料存在着极显著的直线回归关系。�
例 10-4 和例 10-5 的 F 测验和 t 测验结果均表明,表 10-1 资料存在极显著的直线回归关系,而且两种测验方法的结果具 F= 的关系。因为就直线回归而论,回归系数的显著性测定实际上就是对回归关系的显著性测定,只不过后者是用 F 测验,而前者是用 t 测验,两者所得结论相同。当处理均方(大均方)自由度 df 1 为 1 时,不论误差均方自由度 df 2 为何值, F 与 t 均有一定关系:即 F= 这一规律。其数学证明如下:�
六、直线回归的区间估计
由于直线回归方程 皆由随机样本资料而得,必然存在着抽样误差。因此,由回归方程给出的点估计的精确性受到 和 a 、 b 误差大小的影响。合理的方法是考虑到抽样误差的影响,进行区间估计。
(一)、回归截距和回归系数的置信区间
总体回归截距 是 x=0 时的 ( y 总体平均数),样本回归截距 a 则是 x=0 时的 的估计值 ,所以 a 的标准误 ,就是 x=0 时的 。
( 10.24 )
并且 是遵从 df=n-2 的 t 分布。因此对于截距 的 1- 置信区间为:
( 10.25 )
b 的标准误见公式( 10.16 ),根据( 10.17 )可得 的 1- 置信区间为:
[ ] ( 10.26 )
上述对于 和 的置信区间可在两种情况下应用: ① 当 a 、 b 具有专业上的实际意义时; ② 当需要测验 a 或 b 与某一理论值的差异显著性时(若预定的理论值不包括在置信区间内,为差异显著,反之为不显著)。
例 10-7 :计算表 10-1 资料所得的 b 的总体回归系数 的 95% 置信度的区间。
前面已算得: n=5 df=3
P=95% 时: ( )
( )
所以 的 95% 置信度的区间为: 0.0533 ≤ ≤ 0.1167
此区间说明:该梨品种在盛花后 天内,其果实细胞数平均每天增长在 ( )之间 , 这一推断的置信度为 95% 。
( 二 ) 、各 上的总体平均数 的置信区间
在直线回归模型中,任一 上均存在一个正态分布的 y 总体,而我们只能利用直线回归方程 ,由 估计各 y 正态总体的平均数 。如前所述,这一估计的精确度必然受到 和 b 的抽样误差的影响。 的标准误为:
( 10.27 )
因为 服从 df=n-2 的 t 分布,则包含 的 置信区间为:
[ ] ( 10.28 )
例 10-8 :用表 10-1 资料,计算盛花后天数 x=10 时,果实平均细胞数( )的 95% 的置信区间。
前面已算得:
直线回归方程: ,将 x=10 代入方程得: =0.9390
由公式( 10.27 )得:
当 df=3 时, ,根据( 10.28 )式算得:
( 个)
所以: 0.4698 ≤ ≤ 1.4082
此区间的意义是:盛花后 10 天,该梨品种果实细胞数的总体平均数的置信区间是 ( 个),此推论的置信度为 95% 。
(三)、各 上的总体观察值 的预测区间
在园艺植物生产和科学研究实践中,常常不仅需要了解总体参数的置信区间,有时还希望知道总体观察值的存在区间。例如在研究某地春季雨量和梨锈病的侵染期的回归关系时,知道总体平均侵染时期固然重要,但从防治工作来看,了解其侵染期最早年份会在何时,最迟年份有多在何时?其价值将更大。双变数资料可利用直线回归模型,对 x 为某一值时, y 总体观察值的存在范围进行预测。
y 的标准误 为:
( 10.29 )
而 近似服从 df=n-2 的 t 分布,故保证概率为 的 y 的预测区间为:
[ ] ( 10.30 )
例 10-9 :用表 10-1 资料,计算盛花后天数 x=10 时,保证概率为 95% 的 y 的预测区间。
将例 10-8 中已知的的数据代入公式( 10.29 )得:
上面算得: x=10 时, =0.9390
当 df=3 时, ,根据( 10.30 )式算得:
( 个)
此区间说明:盛花后 10 天,该梨品种果实细胞数观察值 y 的预测区间是 ( 个),可靠度为 95% 。
上述置信区间和预测区间的统计概念是不同的。置信区间是用于推断总体参数(常量),如 等的存在区间;预测区间则是 用于推断某一变量,如 的变化范围。
由公式( 10.27 )和 (10.29) 可见, x 值越大, 和 也越大,推断区间的精确度越差;但 n 和 愈大, 和 愈小,推断区间的精确度提高。因此,增大观察值对数( n )和扩大 x 变数的范围( 也增大)是提高回归估计精确度的重要手段。
热心网友
时间:2023-10-22 16:33
回归是指由一个 ( 或几个 ) 变数的变化来预测另一个变数的变化。预测的方法是通过回归方程来实现的,回归分析的方法在园艺植物的生产和科学研究中有着广泛的应用,如利用温度或雨量的变化,预测某种园艺植物的主要物侯期 ( 萌芽、开花 ) 、产量、品质以及病虫害发生,应用实生苗的某些性状,预测成年树的某些性状等。�
一、直线回归方程式�
将 x 与 y 两个变数的 n 对观察值 ( ) , ( ) ,…… ( ) 分别以座标点的形式标记于同一直角座标平面上,作成散点图,如果这两个变数的 n 对观察值在散点图上呈线性,则说明两变数间的数量关系可用直线回归方程来表示。在解析几何上,表示一个平面上的任何直线方程的一般形式为:�
(10.1) �
上式称为“ y 依 x 的直线回归方程”, x 是自变数。 是和 x 的量相对应的依变数 y 的点估测值。 a 是 x=0 时的 值,也是回归直线在 y 轴上的截距,叫做回归截距。 b 是回归系数,表示 x 每增加一个单位, 平均将要增加 (b > 0) 或减少 (b < 0) 的单位数。�
要使 成为实际资料的最佳线性配合,并满足预测要求,必须使离回归平方和 = 最小。�
为使 = 最小,需分别对 a 和 b 求偏导数,并令之为 0 :�
则 :
简化以上二式,得一组联立方程式:
由方程式 (1) 得 (10.2) �
将 (10.2) 式代入方程式 (2) ,并展开、合并、移项后,得:
� ( 10.3 )
( 10.3 )中的分子为 x 和 y 变数的离均差的乘积和 (sum of procts) ,记作 SP 。
上述求解 a 和 b 的程序称为最小平方法。由此 a 和 b 构成的回归方程具有三个基本性质: 1 、 = 最小。 2 、 。 3 、当 时, ,回归直线必通过点 ( ) 。因为将 (10.2) 式代入 (10.1) 式后可得直线回归方程的另一常见形式为:� ( 10.4 )
将 代如此式,得 。
由于 具有上述三个基本特征,所以该方程是实际资料的线性最佳配合。
二、直线回归方程式的计算及回归直线图�
例 10-1 :表 10-1 为某砂梨品种 1983 年在江苏扬州盛花后天数与果实细胞数增长的关系,试建立回归方程:�
表 10-1 盛花后天数与梨果实细胞数
盛花后天数( X )
果实细胞数(
7
0.56
14
1.25
21
2.07
28
2.66
35
2.83
�
将例 10-1 的 5 对观察值做成散点图 ( 图 10-1) ,呈现较明显的直线趋势,果实细胞数随着盛花后天数的增加而增加。在建立该资料回归方程时,首先需计算出 6 个一级数据:
�
n=5 �
由 6 个一级数据可算得 5 个 2 级数据:�
�
将上述二级数据分别代入公式 (10.3) 和 (10.2) 得:
�
表 (10-1) 资料的直线回归方程为:�
此方程表明,在盛花后 7 天至 35 天这段时期,每天梨果实的细胞数可平均增加 8.50 × 10 个,回归截距 a 在此没有专业意义。如将该直线方程作图表示时,可把观察值中 x 的最小和最大值代入该方程式:�
当 x=7 时, ,当 x=35 时,
将 (7 , 0.6840) 和 (35 , 3.0640) 两座标点在图上连成一条直线,如图 (10-1) 所示。为验证这一方程式是否正确,根据前述直线回归方程性质 3 ,可将 代入方程式,如果 ,则一定正确。本例将 代入得:
�
由此,也可核对作图是否正确。
图 10-1 盛花后天数与梨果实细胞数增长的关系
在作回归直线图时,以 x 变数为横坐标, y 变数为纵坐标,并标明名称和单位。若不是以零起始的,要在近原点处划一折断号。划出直线图后,应将实际观察各点标明在图上,且将回归方程以及相关系数(或决定系数)分别标于直线的上方或下方。同时应注意,绘制的回归直线两端不要超出 x 变数的取值范围。
例 10-2 :取粉皮冬瓜雌花谢花后7--11天的果实,测其果实纵径( cm ),得结果于表 10-2 。试求直线回归方程。
表 10-2 粉皮冬瓜雌花谢花后天数与果实纵径关系
谢花后天数
7 8 9 10 11
果实纵径(cm)
14.3 16.8 17.2 17.6 18.5
按例 10-1 的计算方法可得:
得回归方程:
b= 0.92cm 表示该冬瓜雌花谢花后 7--11天内,每增长一天,果实纵径平均增加 0.92cm ; a=8.60 在此资料中有专业意义,表示雌花还未谢时(即将谢花),果实纵径平均为 8.60cm 。
三、直线回归方程估计标准误�
图 10-1 可见,由回归方程所得到的理论值 ,通常并不能和实际观察值 (y) 相吻合,但回归方程满足 = 最小这一基本性质。因此, 是各个 上 y 总体平均数的最好估计,这就如同在一个变数的随机样本中, 的代表性要比任一观察值 更为合理。由于在回归模型中,各个 上都有一个 y 总体分布,为了衡量回归方程的预测精确度,必须了解这些 y 总体分布的标准差或变异度。这个标准差或变异度的统计数叫做直线回归的估计标准误,也称离回归标准差,记作 ,计算公式为:�
( 10.5 )
的意义在于各观察值 (y) 与预测值 ( ) 愈接近,即各散点愈近于回归直线, 愈小,如果散点均落在直线上,则 = 0 ;反之,离开回归直线愈远,则 愈大。
公式 (10.5) 中, Q 称为离回归平方和或剩余平方和。因为各散点的 y 值与对应预测值 ( ) 的差异 ( ) ,其值有正有负, ,故须将各 ( ) 先平方,再累加起来,这与计算单变数样本平方和的道理是一样的。由于在建立直线回归方程时,用了 a 和 b 两个统计数,故 的自由度应为 =n-2 。�
由于用 直接计算 Q 时,步骤多而繁锁,加之如保留末位数不够,易产生较大计算误差,常采用以下恒等式计算:
因
故 ( 10.6 )
(10.7)
(10.8)
上述三个公式中,以( 10.6 )式的计算结果最为精确,因为( 10.6 )式中均使用二级数据,而公式( 10.7 )和( 10.8) 中,不仅使用了二级数据,也使用了*数据,而*数据往往因小数点后保留的末位数不足,影响到 Q 值的精确度,故实际计算 Q 值时,以使用公式( 10.6 )为好。�
例 10-3 :试计算表 10-1 和表 10-2 资料的直线回归估计标准误�
由表 10-1 资料已计算出:
=3.6861 =490.0000 SP=41.6500 �
代入公式( 10.6 )得:�
Q=3.6861-
将 Q=0.1459 代入公式 (10.5) 得:�
( 个)
上述计算说明:用回归方程 =0.0890+0.0850X 表示盛花后天数与果实细胞数之间的回归关系,有一个 =0.2205 的估计标准误。
由表 10-1 资料已计算出:
=9.908 =10 SP=9.200 �
Q=9.908
= (cm)
=0.694 说明由 =8.60+0.92x 估测果实纵径 y 时,有一个 =0.694 的估测标准误。
的统计意义是:在 ± 区间内,可期望包括 68.27% 的 y 观察值;在 ± 2 区间内,可期望包括 95.45% 的 y 观察值;在 ± 3 区间内,可期望包括 99.73% 的 y 观察值;在 ± 1.96 区间内,可期望包括 95% 的 y 观察值;在 ± 2.58 区间内,可期望包括 99% 的 y 观察值。
四、直线回归模型
在双变数资料中,观察值 的直线回归数学模型为:
(10.9)
( )
因 ,上述模型也可写为:
(10.10) �
且有:
上面式中, 为 y 在各 上正态分布的总体平均数,其样本估计值为 ; 和 分别为 y 和 x 两变数的总体平均数,样本估计值是 和 ,α和β是直线回归总体的回归截距和回归系数,样本估计值分别是 a 和 b 。
本章所述直线回归分析,是建立在 (10.9) 式 (10.10) 基本之上的。了解建立回归模型的两个基本前提,有助于正确地进行回归分析。�
1. 在可能取值区间内,任一 x 值上都存在着一个 y 变数的正态分布总体, x 是没有误差或误差很小的固定变数, y 是随机变数。如果 x 和 y 都是随机变数,则为相关模型。�
2. 各 上的所有 y 总体都服从 的正态分布。即 y 变数有共同的方差 ( ),而总体平均数 ,则随 x 的不同而呈直线变化,变化关系为:�
(10.11) �
在实际应用回归分析时,完全满足上述两个前提的资料并不多见。比如 x 是没有误差或误差很小的固定变数就不易满足;在每一固定的 x 上的 y 总体都属于等方差且平均数呈线性这个条件亦不易满足。因此,直线回归分析结果大多是近似的。一般情况下,当 x 的各个水平皆可控时 ( 这在经过设计的试验中是常遇的,例如肥料试验,各种施肥量是固定可控的 ) ; x 和 y 具有自变数和依变数的关系时;需要由 x 预测 y 时,可以选用回归模型,
五、直线回归的显著性测验�
任何一个双变数资料,若其总体并不存在直线回归关系,但对所属的一个随机样本资料,利用上述方法,仍可建立一个直线回归方程。为了确定是否有真实的直线回归关系,一是需要有关专业知识提供理论基础,二是必须测定该样本来自无直线回归关系的总体的概率大小,当这种概率 P < 0.05 时,我们才能冒较小的危险,确认其所属总体存在着真实的直线回归关系,这就是直线回归的显著性测验,其测验方法可利用 F 测验或 t 测验进行。�
1 、 F 测验�
已知公式 10.4 为:
�
则
等式两边平方,累加得:�
移项得:�
(10.12)
恒等式 (10.12) 亦可写为:�
( 10.13 )
�
上式中, 是方差分析中,经常使用的离均差平方和 ( ) , df=n-1 ; 则是前述的离回归开方和 (Q) ,它与 b 和 X 的变化无关,实际上是回归方程估计误差平方和, = n-2, 离回归均方 ; 是由回归系数 b 的效应和 X 的变化而占有的平方和,故称之为回归平方和,记作 U ,具自由度 dfu=(n-1)-(n-2)=1 ,回归均方 为:�
(10.14)
( 10.13) 式表明,在双变数资料中, y 变数的离均差平方和可分解为回归平方和 (U) 和离回归平方和 (Q) 两部分。因此,如果 y 的变化和 x 的变化无关,说明两变数间无直线回归关系, ,则 = , 是 y 变数的最适合代表值,如果 y 的变化和 x 的变化有关,则 U 值必须显著大于离回归均方 ,表明用 表示 y 变数,要比用 表示更为合理。�
由于回归均方和离回归均方的比值遵循 的 F 分布,则由:�
(10.15) �
可测验直线回归的显著性�
例 10-4: 测验表 10-1 资料回归关系的显著性。�
在例 10-1 和 10-3 已算得, =3.6861 , Q=0.1459 �
则 U= - Q =3.6861-0.1459=3.5402
:盛花后天数与梨果实细胞数的增长之间无直线回归关系, :有直线回归关系方差分析于表 10-3 �
表 10-3 例 10-1 资料回归关系显著性测验�
变异来源
df
SS
MS
F
回 归
离回归
1
3
3.5402
0.1459
3.5402
0.0486
72.844
10.13 34.12
总变异
4
3.6861
因表 10-3 得到 F=72.844 > =34.12 ,故否定 ,推断表 10-1 资料有极显著的直线回归关系。�
2 、 t 测验�
这是测验样本回归系数 b 来自β =0 总体的概率大小,如果这种概率 P < 0.05 ,我们则可以较小的风险,确认该样本所属总体存在着直线回归关系,反之,则认为该样本所属总体无直线回归关系。从统计意义上看,回归系数的显著性测验,实际上也是对回归关系的显著性测验。与样本平均数显著性测验时,需首先计算出平均数的标准误 一样,对回归系数进行 t 测验时,也需计算出回归系数的标准误 。即:
� (10.16) �
则 或 (10.17) �
遵循 df=n-2 的 t 分布。测验时的假设是 :β =0 , :β≠ 0 ,如| t |< ,
接受 ;| t |≥ ,则否定 ,接受 。�
例 10-5: 利用 t 测验,对表 10-1 资料进行直线回归显著性测验。�
假设 :β =0 , :β≠ 0 �
已知: b=0.0850 , Q=0.1459 , =490.0000 �
由公式 (10.16) 和 (10.17) ,得:
�
查 t 值表, df =3 时, =3.183 , , | t | =8.5341 > ,则否定 ,接受 ,表 9-1 资料存在着极显著的直线回归关系。�
例 10-4 和例 10-5 的 F 测验和 t 测验结果均表明,表 10-1 资料存在极显著的直线回归关系,而且两种测验方法的结果具 F= 的关系。因为就直线回归而论,回归系数的显著性测定实际上就是对回归关系的显著性测定,只不过后者是用 F 测验,而前者是用 t 测验,两者所得结论相同。当处理均方(大均方)自由度 df 1 为 1 时,不论误差均方自由度 df 2 为何值, F 与 t 均有一定关系:即 F= 这一规律。其数学证明如下:�
六、直线回归的区间估计
由于直线回归方程 皆由随机样本资料而得,必然存在着抽样误差。因此,由回归方程给出的点估计的精确性受到 和 a 、 b 误差大小的影响。合理的方法是考虑到抽样误差的影响,进行区间估计。
(一)、回归截距和回归系数的置信区间
总体回归截距 是 x=0 时的 ( y 总体平均数),样本回归截距 a 则是 x=0 时的 的估计值 ,所以 a 的标准误 ,就是 x=0 时的 。
( 10.24 )
并且 是遵从 df=n-2 的 t 分布。因此对于截距 的 1- 置信区间为:
( 10.25 )
b 的标准误见公式( 10.16 ),根据( 10.17 )可得 的 1- 置信区间为:
[ ] ( 10.26 )
上述对于 和 的置信区间可在两种情况下应用: ① 当 a 、 b 具有专业上的实际意义时; ② 当需要测验 a 或 b 与某一理论值的差异显著性时(若预定的理论值不包括在置信区间内,为差异显著,反之为不显著)。
例 10-7 :计算表 10-1 资料所得的 b 的总体回归系数 的 95% 置信度的区间。
前面已算得: n=5 df=3
P=95% 时: ( )
( )
所以 的 95% 置信度的区间为: 0.0533 ≤ ≤ 0.1167
此区间说明:该梨品种在盛花后 天内,其果实细胞数平均每天增长在 ( )之间 , 这一推断的置信度为 95% 。
( 二 ) 、各 上的总体平均数 的置信区间
在直线回归模型中,任一 上均存在一个正态分布的 y 总体,而我们只能利用直线回归方程 ,由 估计各 y 正态总体的平均数 。如前所述,这一估计的精确度必然受到 和 b 的抽样误差的影响。 的标准误为:
( 10.27 )
因为 服从 df=n-2 的 t 分布,则包含 的 置信区间为:
[ ] ( 10.28 )
例 10-8 :用表 10-1 资料,计算盛花后天数 x=10 时,果实平均细胞数( )的 95% 的置信区间。
前面已算得:
直线回归方程: ,将 x=10 代入方程得: =0.9390
由公式( 10.27 )得:
当 df=3 时, ,根据( 10.28 )式算得:
( 个)
所以: 0.4698 ≤ ≤ 1.4082
此区间的意义是:盛花后 10 天,该梨品种果实细胞数的总体平均数的置信区间是 ( 个),此推论的置信度为 95% 。
(三)、各 上的总体观察值 的预测区间
在园艺植物生产和科学研究实践中,常常不仅需要了解总体参数的置信区间,有时还希望知道总体观察值的存在区间。例如在研究某地春季雨量和梨锈病的侵染期的回归关系时,知道总体平均侵染时期固然重要,但从防治工作来看,了解其侵染期最早年份会在何时,最迟年份有多在何时?其价值将更大。双变数资料可利用直线回归模型,对 x 为某一值时, y 总体观察值的存在范围进行预测。
y 的标准误 为:
( 10.29 )
而 近似服从 df=n-2 的 t 分布,故保证概率为 的 y 的预测区间为:
[ ] ( 10.30 )
例 10-9 :用表 10-1 资料,计算盛花后天数 x=10 时,保证概率为 95% 的 y 的预测区间。
将例 10-8 中已知的的数据代入公式( 10.29 )得:
上面算得: x=10 时, =0.9390
当 df=3 时, ,根据( 10.30 )式算得:
( 个)
此区间说明:盛花后 10 天,该梨品种果实细胞数观察值 y 的预测区间是 ( 个),可靠度为 95% 。
上述置信区间和预测区间的统计概念是不同的。置信区间是用于推断总体参数(常量),如 等的存在区间;预测区间则是 用于推断某一变量,如 的变化范围。
由公式( 10.27 )和 (10.29) 可见, x 值越大, 和 也越大,推断区间的精确度越差;但 n 和 愈大, 和 愈小,推断区间的精确度提高。因此,增大观察值对数( n )和扩大 x 变数的范围( 也增大)是提高回归估计精确度的重要手段。
热心网友
时间:2023-10-22 16:34
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:
1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX
(9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:34
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:34
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:
1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX
(9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:35
您好!
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方 程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:34
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:35
您好!
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方 程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:33
回归是指由一个 ( 或几个 ) 变数的变化来预测另一个变数的变化。预测的方法是通过回归方程来实现的,回归分析的方法在园艺植物的生产和科学研究中有着广泛的应用,如利用温度或雨量的变化,预测某种园艺植物的主要物侯期 ( 萌芽、开花 ) 、产量、品质以及病虫害发生,应用实生苗的某些性状,预测成年树的某些性状等。�
一、直线回归方程式�
将 x 与 y 两个变数的 n 对观察值 ( ) , ( ) ,…… ( ) 分别以座标点的形式标记于同一直角座标平面上,作成散点图,如果这两个变数的 n 对观察值在散点图上呈线性,则说明两变数间的数量关系可用直线回归方程来表示。在解析几何上,表示一个平面上的任何直线方程的一般形式为:�
(10.1) �
上式称为“ y 依 x 的直线回归方程”, x 是自变数。 是和 x 的量相对应的依变数 y 的点估测值。 a 是 x=0 时的 值,也是回归直线在 y 轴上的截距,叫做回归截距。 b 是回归系数,表示 x 每增加一个单位, 平均将要增加 (b > 0) 或减少 (b < 0) 的单位数。�
要使 成为实际资料的最佳线性配合,并满足预测要求,必须使离回归平方和 = 最小。�
为使 = 最小,需分别对 a 和 b 求偏导数,并令之为 0 :�
则 :
简化以上二式,得一组联立方程式:
由方程式 (1) 得 (10.2) �
将 (10.2) 式代入方程式 (2) ,并展开、合并、移项后,得:
� ( 10.3 )
( 10.3 )中的分子为 x 和 y 变数的离均差的乘积和 (sum of procts) ,记作 SP 。
上述求解 a 和 b 的程序称为最小平方法。由此 a 和 b 构成的回归方程具有三个基本性质: 1 、 = 最小。 2 、 。 3 、当 时, ,回归直线必通过点 ( ) 。因为将 (10.2) 式代入 (10.1) 式后可得直线回归方程的另一常见形式为:� ( 10.4 )
将 代如此式,得 。
由于 具有上述三个基本特征,所以该方程是实际资料的线性最佳配合。
二、直线回归方程式的计算及回归直线图�
例 10-1 :表 10-1 为某砂梨品种 1983 年在江苏扬州盛花后天数与果实细胞数增长的关系,试建立回归方程:�
表 10-1 盛花后天数与梨果实细胞数
盛花后天数( X )
果实细胞数(
7
0.56
14
1.25
21
2.07
28
2.66
35
2.83
�
将例 10-1 的 5 对观察值做成散点图 ( 图 10-1) ,呈现较明显的直线趋势,果实细胞数随着盛花后天数的增加而增加。在建立该资料回归方程时,首先需计算出 6 个一级数据:
�
n=5 �
由 6 个一级数据可算得 5 个 2 级数据:�
�
将上述二级数据分别代入公式 (10.3) 和 (10.2) 得:
�
表 (10-1) 资料的直线回归方程为:�
此方程表明,在盛花后 7 天至 35 天这段时期,每天梨果实的细胞数可平均增加 8.50 × 10 个,回归截距 a 在此没有专业意义。如将该直线方程作图表示时,可把观察值中 x 的最小和最大值代入该方程式:�
当 x=7 时, ,当 x=35 时,
将 (7 , 0.6840) 和 (35 , 3.0640) 两座标点在图上连成一条直线,如图 (10-1) 所示。为验证这一方程式是否正确,根据前述直线回归方程性质 3 ,可将 代入方程式,如果 ,则一定正确。本例将 代入得:
�
由此,也可核对作图是否正确。
图 10-1 盛花后天数与梨果实细胞数增长的关系
在作回归直线图时,以 x 变数为横坐标, y 变数为纵坐标,并标明名称和单位。若不是以零起始的,要在近原点处划一折断号。划出直线图后,应将实际观察各点标明在图上,且将回归方程以及相关系数(或决定系数)分别标于直线的上方或下方。同时应注意,绘制的回归直线两端不要超出 x 变数的取值范围。
例 10-2 :取粉皮冬瓜雌花谢花后7--11天的果实,测其果实纵径( cm ),得结果于表 10-2 。试求直线回归方程。
表 10-2 粉皮冬瓜雌花谢花后天数与果实纵径关系
谢花后天数
7 8 9 10 11
果实纵径(cm)
14.3 16.8 17.2 17.6 18.5
按例 10-1 的计算方法可得:
得回归方程:
b= 0.92cm 表示该冬瓜雌花谢花后 7--11天内,每增长一天,果实纵径平均增加 0.92cm ; a=8.60 在此资料中有专业意义,表示雌花还未谢时(即将谢花),果实纵径平均为 8.60cm 。
三、直线回归方程估计标准误�
图 10-1 可见,由回归方程所得到的理论值 ,通常并不能和实际观察值 (y) 相吻合,但回归方程满足 = 最小这一基本性质。因此, 是各个 上 y 总体平均数的最好估计,这就如同在一个变数的随机样本中, 的代表性要比任一观察值 更为合理。由于在回归模型中,各个 上都有一个 y 总体分布,为了衡量回归方程的预测精确度,必须了解这些 y 总体分布的标准差或变异度。这个标准差或变异度的统计数叫做直线回归的估计标准误,也称离回归标准差,记作 ,计算公式为:�
( 10.5 )
的意义在于各观察值 (y) 与预测值 ( ) 愈接近,即各散点愈近于回归直线, 愈小,如果散点均落在直线上,则 = 0 ;反之,离开回归直线愈远,则 愈大。
公式 (10.5) 中, Q 称为离回归平方和或剩余平方和。因为各散点的 y 值与对应预测值 ( ) 的差异 ( ) ,其值有正有负, ,故须将各 ( ) 先平方,再累加起来,这与计算单变数样本平方和的道理是一样的。由于在建立直线回归方程时,用了 a 和 b 两个统计数,故 的自由度应为 =n-2 。�
由于用 直接计算 Q 时,步骤多而繁锁,加之如保留末位数不够,易产生较大计算误差,常采用以下恒等式计算:
因
故 ( 10.6 )
(10.7)
(10.8)
上述三个公式中,以( 10.6 )式的计算结果最为精确,因为( 10.6 )式中均使用二级数据,而公式( 10.7 )和( 10.8) 中,不仅使用了二级数据,也使用了*数据,而*数据往往因小数点后保留的末位数不足,影响到 Q 值的精确度,故实际计算 Q 值时,以使用公式( 10.6 )为好。�
例 10-3 :试计算表 10-1 和表 10-2 资料的直线回归估计标准误�
由表 10-1 资料已计算出:
=3.6861 =490.0000 SP=41.6500 �
代入公式( 10.6 )得:�
Q=3.6861-
将 Q=0.1459 代入公式 (10.5) 得:�
( 个)
上述计算说明:用回归方程 =0.0890+0.0850X 表示盛花后天数与果实细胞数之间的回归关系,有一个 =0.2205 的估计标准误。
由表 10-1 资料已计算出:
=9.908 =10 SP=9.200 �
Q=9.908
= (cm)
=0.694 说明由 =8.60+0.92x 估测果实纵径 y 时,有一个 =0.694 的估测标准误。
的统计意义是:在 ± 区间内,可期望包括 68.27% 的 y 观察值;在 ± 2 区间内,可期望包括 95.45% 的 y 观察值;在 ± 3 区间内,可期望包括 99.73% 的 y 观察值;在 ± 1.96 区间内,可期望包括 95% 的 y 观察值;在 ± 2.58 区间内,可期望包括 99% 的 y 观察值。
四、直线回归模型
在双变数资料中,观察值 的直线回归数学模型为:
(10.9)
( )
因 ,上述模型也可写为:
(10.10) �
且有:
上面式中, 为 y 在各 上正态分布的总体平均数,其样本估计值为 ; 和 分别为 y 和 x 两变数的总体平均数,样本估计值是 和 ,α和β是直线回归总体的回归截距和回归系数,样本估计值分别是 a 和 b 。
本章所述直线回归分析,是建立在 (10.9) 式 (10.10) 基本之上的。了解建立回归模型的两个基本前提,有助于正确地进行回归分析。�
1. 在可能取值区间内,任一 x 值上都存在着一个 y 变数的正态分布总体, x 是没有误差或误差很小的固定变数, y 是随机变数。如果 x 和 y 都是随机变数,则为相关模型。�
2. 各 上的所有 y 总体都服从 的正态分布。即 y 变数有共同的方差 ( ),而总体平均数 ,则随 x 的不同而呈直线变化,变化关系为:�
(10.11) �
在实际应用回归分析时,完全满足上述两个前提的资料并不多见。比如 x 是没有误差或误差很小的固定变数就不易满足;在每一固定的 x 上的 y 总体都属于等方差且平均数呈线性这个条件亦不易满足。因此,直线回归分析结果大多是近似的。一般情况下,当 x 的各个水平皆可控时 ( 这在经过设计的试验中是常遇的,例如肥料试验,各种施肥量是固定可控的 ) ; x 和 y 具有自变数和依变数的关系时;需要由 x 预测 y 时,可以选用回归模型,
五、直线回归的显著性测验�
任何一个双变数资料,若其总体并不存在直线回归关系,但对所属的一个随机样本资料,利用上述方法,仍可建立一个直线回归方程。为了确定是否有真实的直线回归关系,一是需要有关专业知识提供理论基础,二是必须测定该样本来自无直线回归关系的总体的概率大小,当这种概率 P < 0.05 时,我们才能冒较小的危险,确认其所属总体存在着真实的直线回归关系,这就是直线回归的显著性测验,其测验方法可利用 F 测验或 t 测验进行。�
1 、 F 测验�
已知公式 10.4 为:
�
则
等式两边平方,累加得:�
移项得:�
(10.12)
恒等式 (10.12) 亦可写为:�
( 10.13 )
�
上式中, 是方差分析中,经常使用的离均差平方和 ( ) , df=n-1 ; 则是前述的离回归开方和 (Q) ,它与 b 和 X 的变化无关,实际上是回归方程估计误差平方和, = n-2, 离回归均方 ; 是由回归系数 b 的效应和 X 的变化而占有的平方和,故称之为回归平方和,记作 U ,具自由度 dfu=(n-1)-(n-2)=1 ,回归均方 为:�
(10.14)
( 10.13) 式表明,在双变数资料中, y 变数的离均差平方和可分解为回归平方和 (U) 和离回归平方和 (Q) 两部分。因此,如果 y 的变化和 x 的变化无关,说明两变数间无直线回归关系, ,则 = , 是 y 变数的最适合代表值,如果 y 的变化和 x 的变化有关,则 U 值必须显著大于离回归均方 ,表明用 表示 y 变数,要比用 表示更为合理。�
由于回归均方和离回归均方的比值遵循 的 F 分布,则由:�
(10.15) �
可测验直线回归的显著性�
例 10-4: 测验表 10-1 资料回归关系的显著性。�
在例 10-1 和 10-3 已算得, =3.6861 , Q=0.1459 �
则 U= - Q =3.6861-0.1459=3.5402
:盛花后天数与梨果实细胞数的增长之间无直线回归关系, :有直线回归关系方差分析于表 10-3 �
表 10-3 例 10-1 资料回归关系显著性测验�
变异来源
df
SS
MS
F
回 归
离回归
1
3
3.5402
0.1459
3.5402
0.0486
72.844
10.13 34.12
总变异
4
3.6861
因表 10-3 得到 F=72.844 > =34.12 ,故否定 ,推断表 10-1 资料有极显著的直线回归关系。�
2 、 t 测验�
这是测验样本回归系数 b 来自β =0 总体的概率大小,如果这种概率 P < 0.05 ,我们则可以较小的风险,确认该样本所属总体存在着直线回归关系,反之,则认为该样本所属总体无直线回归关系。从统计意义上看,回归系数的显著性测验,实际上也是对回归关系的显著性测验。与样本平均数显著性测验时,需首先计算出平均数的标准误 一样,对回归系数进行 t 测验时,也需计算出回归系数的标准误 。即:
� (10.16) �
则 或 (10.17) �
遵循 df=n-2 的 t 分布。测验时的假设是 :β =0 , :β≠ 0 ,如| t |< ,
接受 ;| t |≥ ,则否定 ,接受 。�
例 10-5: 利用 t 测验,对表 10-1 资料进行直线回归显著性测验。�
假设 :β =0 , :β≠ 0 �
已知: b=0.0850 , Q=0.1459 , =490.0000 �
由公式 (10.16) 和 (10.17) ,得:
�
查 t 值表, df =3 时, =3.183 , , | t | =8.5341 > ,则否定 ,接受 ,表 9-1 资料存在着极显著的直线回归关系。�
例 10-4 和例 10-5 的 F 测验和 t 测验结果均表明,表 10-1 资料存在极显著的直线回归关系,而且两种测验方法的结果具 F= 的关系。因为就直线回归而论,回归系数的显著性测定实际上就是对回归关系的显著性测定,只不过后者是用 F 测验,而前者是用 t 测验,两者所得结论相同。当处理均方(大均方)自由度 df 1 为 1 时,不论误差均方自由度 df 2 为何值, F 与 t 均有一定关系:即 F= 这一规律。其数学证明如下:�
六、直线回归的区间估计
由于直线回归方程 皆由随机样本资料而得,必然存在着抽样误差。因此,由回归方程给出的点估计的精确性受到 和 a 、 b 误差大小的影响。合理的方法是考虑到抽样误差的影响,进行区间估计。
(一)、回归截距和回归系数的置信区间
总体回归截距 是 x=0 时的 ( y 总体平均数),样本回归截距 a 则是 x=0 时的 的估计值 ,所以 a 的标准误 ,就是 x=0 时的 。
( 10.24 )
并且 是遵从 df=n-2 的 t 分布。因此对于截距 的 1- 置信区间为:
( 10.25 )
b 的标准误见公式( 10.16 ),根据( 10.17 )可得 的 1- 置信区间为:
[ ] ( 10.26 )
上述对于 和 的置信区间可在两种情况下应用: ① 当 a 、 b 具有专业上的实际意义时; ② 当需要测验 a 或 b 与某一理论值的差异显著性时(若预定的理论值不包括在置信区间内,为差异显著,反之为不显著)。
例 10-7 :计算表 10-1 资料所得的 b 的总体回归系数 的 95% 置信度的区间。
前面已算得: n=5 df=3
P=95% 时: ( )
( )
所以 的 95% 置信度的区间为: 0.0533 ≤ ≤ 0.1167
此区间说明:该梨品种在盛花后 天内,其果实细胞数平均每天增长在 ( )之间 , 这一推断的置信度为 95% 。
( 二 ) 、各 上的总体平均数 的置信区间
在直线回归模型中,任一 上均存在一个正态分布的 y 总体,而我们只能利用直线回归方程 ,由 估计各 y 正态总体的平均数 。如前所述,这一估计的精确度必然受到 和 b 的抽样误差的影响。 的标准误为:
( 10.27 )
因为 服从 df=n-2 的 t 分布,则包含 的 置信区间为:
[ ] ( 10.28 )
例 10-8 :用表 10-1 资料,计算盛花后天数 x=10 时,果实平均细胞数( )的 95% 的置信区间。
前面已算得:
直线回归方程: ,将 x=10 代入方程得: =0.9390
由公式( 10.27 )得:
当 df=3 时, ,根据( 10.28 )式算得:
( 个)
所以: 0.4698 ≤ ≤ 1.4082
此区间的意义是:盛花后 10 天,该梨品种果实细胞数的总体平均数的置信区间是 ( 个),此推论的置信度为 95% 。
(三)、各 上的总体观察值 的预测区间
在园艺植物生产和科学研究实践中,常常不仅需要了解总体参数的置信区间,有时还希望知道总体观察值的存在区间。例如在研究某地春季雨量和梨锈病的侵染期的回归关系时,知道总体平均侵染时期固然重要,但从防治工作来看,了解其侵染期最早年份会在何时,最迟年份有多在何时?其价值将更大。双变数资料可利用直线回归模型,对 x 为某一值时, y 总体观察值的存在范围进行预测。
y 的标准误 为:
( 10.29 )
而 近似服从 df=n-2 的 t 分布,故保证概率为 的 y 的预测区间为:
[ ] ( 10.30 )
例 10-9 :用表 10-1 资料,计算盛花后天数 x=10 时,保证概率为 95% 的 y 的预测区间。
将例 10-8 中已知的的数据代入公式( 10.29 )得:
上面算得: x=10 时, =0.9390
当 df=3 时, ,根据( 10.30 )式算得:
( 个)
此区间说明:盛花后 10 天,该梨品种果实细胞数观察值 y 的预测区间是 ( 个),可靠度为 95% 。
上述置信区间和预测区间的统计概念是不同的。置信区间是用于推断总体参数(常量),如 等的存在区间;预测区间则是 用于推断某一变量,如 的变化范围。
由公式( 10.27 )和 (10.29) 可见, x 值越大, 和 也越大,推断区间的精确度越差;但 n 和 愈大, 和 愈小,推断区间的精确度提高。因此,增大观察值对数( n )和扩大 x 变数的范围( 也增大)是提高回归估计精确度的重要手段。
热心网友
时间:2023-10-22 16:34
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:
1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX
(9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:34
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
热心网友
时间:2023-10-22 16:35
您好!
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方 程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。