问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

直线回归方程中截距的标准差怎么求 [理工科]

发布网友 发布时间:2022-05-07 08:33

我来回答

4个回答

热心网友 时间:2023-10-22 16:33

回归是指由一个 ( 或几个 ) 变数的变化来预测另一个变数的变化。预测的方法是通过回归方程来实现的,回归分析的方法在园艺植物的生产和科学研究中有着广泛的应用,如利用温度或雨量的变化,预测某种园艺植物的主要物侯期 ( 萌芽、开花 ) 、产量、品质以及病虫害发生,应用实生苗的某些性状,预测成年树的某些性状等。�

一、直线回归方程式�

将 x 与 y 两个变数的 n 对观察值 ( ) , ( ) ,…… ( ) 分别以座标点的形式标记于同一直角座标平面上,作成散点图,如果这两个变数的 n 对观察值在散点图上呈线性,则说明两变数间的数量关系可用直线回归方程来表示。在解析几何上,表示一个平面上的任何直线方程的一般形式为:�

(10.1) �

上式称为“ y 依 x 的直线回归方程”, x 是自变数。 是和 x 的量相对应的依变数 y 的点估测值。 a 是 x=0 时的 值,也是回归直线在 y 轴上的截距,叫做回归截距。 b 是回归系数,表示 x 每增加一个单位, 平均将要增加 (b > 0) 或减少 (b < 0) 的单位数。�

要使 成为实际资料的最佳线性配合,并满足预测要求,必须使离回归平方和 = 最小。�

为使 = 最小,需分别对 a 和 b 求偏导数,并令之为 0 :�

则 :

简化以上二式,得一组联立方程式:

由方程式 (1) 得 (10.2) �

将 (10.2) 式代入方程式 (2) ,并展开、合并、移项后,得:

� ( 10.3 )

( 10.3 )中的分子为 x 和 y 变数的离均差的乘积和 (sum of procts) ,记作 SP 。

上述求解 a 和 b 的程序称为最小平方法。由此 a 和 b 构成的回归方程具有三个基本性质: 1 、 = 最小。 2 、 。 3 、当 时, ,回归直线必通过点 ( ) 。因为将 (10.2) 式代入 (10.1) 式后可得直线回归方程的另一常见形式为:� ( 10.4 )

将 代如此式,得 。

由于 具有上述三个基本特征,所以该方程是实际资料的线性最佳配合。

二、直线回归方程式的计算及回归直线图�

例 10-1 :表 10-1 为某砂梨品种 1983 年在江苏扬州盛花后天数与果实细胞数增长的关系,试建立回归方程:�

表 10-1 盛花后天数与梨果实细胞数

盛花后天数( X )
果实细胞数(

7
0.56

14
1.25

21
2.07

28
2.66

35
2.83



将例 10-1 的 5 对观察值做成散点图 ( 图 10-1) ,呈现较明显的直线趋势,果实细胞数随着盛花后天数的增加而增加。在建立该资料回归方程时,首先需计算出 6 个一级数据:



n=5 �

由 6 个一级数据可算得 5 个 2 级数据:�



将上述二级数据分别代入公式 (10.3) 和 (10.2) 得:



表 (10-1) 资料的直线回归方程为:�

此方程表明,在盛花后 7 天至 35 天这段时期,每天梨果实的细胞数可平均增加 8.50 × 10 个,回归截距 a 在此没有专业意义。如将该直线方程作图表示时,可把观察值中 x 的最小和最大值代入该方程式:�

当 x=7 时, ,当 x=35 时,

将 (7 , 0.6840) 和 (35 , 3.0640) 两座标点在图上连成一条直线,如图 (10-1) 所示。为验证这一方程式是否正确,根据前述直线回归方程性质 3 ,可将 代入方程式,如果 ,则一定正确。本例将 代入得:



由此,也可核对作图是否正确。

图 10-1 盛花后天数与梨果实细胞数增长的关系

在作回归直线图时,以 x 变数为横坐标, y 变数为纵坐标,并标明名称和单位。若不是以零起始的,要在近原点处划一折断号。划出直线图后,应将实际观察各点标明在图上,且将回归方程以及相关系数(或决定系数)分别标于直线的上方或下方。同时应注意,绘制的回归直线两端不要超出 x 变数的取值范围。

例 10-2 :取粉皮冬瓜雌花谢花后7--11天的果实,测其果实纵径( cm ),得结果于表 10-2 。试求直线回归方程。

表 10-2 粉皮冬瓜雌花谢花后天数与果实纵径关系

谢花后天数
7 8 9 10 11
果实纵径(cm)
14.3 16.8 17.2 17.6 18.5

按例 10-1 的计算方法可得:

得回归方程:

b= 0.92cm 表示该冬瓜雌花谢花后 7--11天内,每增长一天,果实纵径平均增加 0.92cm ; a=8.60 在此资料中有专业意义,表示雌花还未谢时(即将谢花),果实纵径平均为 8.60cm 。

三、直线回归方程估计标准误�

图 10-1 可见,由回归方程所得到的理论值 ,通常并不能和实际观察值 (y) 相吻合,但回归方程满足 = 最小这一基本性质。因此, 是各个 上 y 总体平均数的最好估计,这就如同在一个变数的随机样本中, 的代表性要比任一观察值 更为合理。由于在回归模型中,各个 上都有一个 y 总体分布,为了衡量回归方程的预测精确度,必须了解这些 y 总体分布的标准差或变异度。这个标准差或变异度的统计数叫做直线回归的估计标准误,也称离回归标准差,记作 ,计算公式为:�

( 10.5 )

的意义在于各观察值 (y) 与预测值 ( ) 愈接近,即各散点愈近于回归直线, 愈小,如果散点均落在直线上,则 = 0 ;反之,离开回归直线愈远,则 愈大。

公式 (10.5) 中, Q 称为离回归平方和或剩余平方和。因为各散点的 y 值与对应预测值 ( ) 的差异 ( ) ,其值有正有负, ,故须将各 ( ) 先平方,再累加起来,这与计算单变数样本平方和的道理是一样的。由于在建立直线回归方程时,用了 a 和 b 两个统计数,故 的自由度应为 =n-2 。�

由于用 直接计算 Q 时,步骤多而繁锁,加之如保留末位数不够,易产生较大计算误差,常采用以下恒等式计算:



故 ( 10.6 )

(10.7)

(10.8)

上述三个公式中,以( 10.6 )式的计算结果最为精确,因为( 10.6 )式中均使用二级数据,而公式( 10.7 )和( 10.8) 中,不仅使用了二级数据,也使用了*数据,而*数据往往因小数点后保留的末位数不足,影响到 Q 值的精确度,故实际计算 Q 值时,以使用公式( 10.6 )为好。�

例 10-3 :试计算表 10-1 和表 10-2 资料的直线回归估计标准误�

由表 10-1 资料已计算出:

=3.6861 =490.0000 SP=41.6500 �

代入公式( 10.6 )得:�

Q=3.6861-

将 Q=0.1459 代入公式 (10.5) 得:�

( 个)

上述计算说明:用回归方程 =0.0890+0.0850X 表示盛花后天数与果实细胞数之间的回归关系,有一个 =0.2205 的估计标准误。

由表 10-1 资料已计算出:

=9.908 =10 SP=9.200 �

Q=9.908

= (cm)

=0.694 说明由 =8.60+0.92x 估测果实纵径 y 时,有一个 =0.694 的估测标准误。

的统计意义是:在 ± 区间内,可期望包括 68.27% 的 y 观察值;在 ± 2 区间内,可期望包括 95.45% 的 y 观察值;在 ± 3 区间内,可期望包括 99.73% 的 y 观察值;在 ± 1.96 区间内,可期望包括 95% 的 y 观察值;在 ± 2.58 区间内,可期望包括 99% 的 y 观察值。

四、直线回归模型

在双变数资料中,观察值 的直线回归数学模型为:

(10.9)

( )

因 ,上述模型也可写为:

(10.10) �

且有:

上面式中, 为 y 在各 上正态分布的总体平均数,其样本估计值为 ; 和 分别为 y 和 x 两变数的总体平均数,样本估计值是 和 ,α和β是直线回归总体的回归截距和回归系数,样本估计值分别是 a 和 b 。

本章所述直线回归分析,是建立在 (10.9) 式 (10.10) 基本之上的。了解建立回归模型的两个基本前提,有助于正确地进行回归分析。�

1. 在可能取值区间内,任一 x 值上都存在着一个 y 变数的正态分布总体, x 是没有误差或误差很小的固定变数, y 是随机变数。如果 x 和 y 都是随机变数,则为相关模型。�

2. 各 上的所有 y 总体都服从 的正态分布。即 y 变数有共同的方差 ( ),而总体平均数 ,则随 x 的不同而呈直线变化,变化关系为:�

(10.11) �

在实际应用回归分析时,完全满足上述两个前提的资料并不多见。比如 x 是没有误差或误差很小的固定变数就不易满足;在每一固定的 x 上的 y 总体都属于等方差且平均数呈线性这个条件亦不易满足。因此,直线回归分析结果大多是近似的。一般情况下,当 x 的各个水平皆可控时 ( 这在经过设计的试验中是常遇的,例如肥料试验,各种施肥量是固定可控的 ) ; x 和 y 具有自变数和依变数的关系时;需要由 x 预测 y 时,可以选用回归模型,

五、直线回归的显著性测验�

任何一个双变数资料,若其总体并不存在直线回归关系,但对所属的一个随机样本资料,利用上述方法,仍可建立一个直线回归方程。为了确定是否有真实的直线回归关系,一是需要有关专业知识提供理论基础,二是必须测定该样本来自无直线回归关系的总体的概率大小,当这种概率 P < 0.05 时,我们才能冒较小的危险,确认其所属总体存在着真实的直线回归关系,这就是直线回归的显著性测验,其测验方法可利用 F 测验或 t 测验进行。�

1 、 F 测验�

已知公式 10.4 为:





等式两边平方,累加得:�

移项得:�

(10.12)

恒等式 (10.12) 亦可写为:�

( 10.13 )



上式中, 是方差分析中,经常使用的离均差平方和 ( ) , df=n-1 ; 则是前述的离回归开方和 (Q) ,它与 b 和 X 的变化无关,实际上是回归方程估计误差平方和, = n-2, 离回归均方 ; 是由回归系数 b 的效应和 X 的变化而占有的平方和,故称之为回归平方和,记作 U ,具自由度 dfu=(n-1)-(n-2)=1 ,回归均方 为:�

(10.14)

( 10.13) 式表明,在双变数资料中, y 变数的离均差平方和可分解为回归平方和 (U) 和离回归平方和 (Q) 两部分。因此,如果 y 的变化和 x 的变化无关,说明两变数间无直线回归关系, ,则 = , 是 y 变数的最适合代表值,如果 y 的变化和 x 的变化有关,则 U 值必须显著大于离回归均方 ,表明用 表示 y 变数,要比用 表示更为合理。�

由于回归均方和离回归均方的比值遵循 的 F 分布,则由:�

(10.15) �

可测验直线回归的显著性�

例 10-4: 测验表 10-1 资料回归关系的显著性。�

在例 10-1 和 10-3 已算得, =3.6861 , Q=0.1459 �

则 U= - Q =3.6861-0.1459=3.5402

:盛花后天数与梨果实细胞数的增长之间无直线回归关系, :有直线回归关系方差分析于表 10-3 �

表 10-3 例 10-1 资料回归关系显著性测验�

变异来源
df
SS
MS
F

回 归

离回归
1

3
3.5402

0.1459
3.5402

0.0486
72.844
10.13 34.12

总变异
4
3.6861

因表 10-3 得到 F=72.844 > =34.12 ,故否定 ,推断表 10-1 资料有极显著的直线回归关系。�

2 、 t 测验�

这是测验样本回归系数 b 来自β =0 总体的概率大小,如果这种概率 P < 0.05 ,我们则可以较小的风险,确认该样本所属总体存在着直线回归关系,反之,则认为该样本所属总体无直线回归关系。从统计意义上看,回归系数的显著性测验,实际上也是对回归关系的显著性测验。与样本平均数显著性测验时,需首先计算出平均数的标准误 一样,对回归系数进行 t 测验时,也需计算出回归系数的标准误 。即:

� (10.16) �

则 或 (10.17) �

遵循 df=n-2 的 t 分布。测验时的假设是 :β =0 , :β≠ 0 ,如| t |< ,

接受 ;| t |≥ ,则否定 ,接受 。�

例 10-5: 利用 t 测验,对表 10-1 资料进行直线回归显著性测验。�

假设 :β =0 , :β≠ 0 �

已知: b=0.0850 , Q=0.1459 , =490.0000 �

由公式 (10.16) 和 (10.17) ,得:



查 t 值表, df =3 时, =3.183 , , | t | =8.5341 > ,则否定 ,接受 ,表 9-1 资料存在着极显著的直线回归关系。�

例 10-4 和例 10-5 的 F 测验和 t 测验结果均表明,表 10-1 资料存在极显著的直线回归关系,而且两种测验方法的结果具 F= 的关系。因为就直线回归而论,回归系数的显著性测定实际上就是对回归关系的显著性测定,只不过后者是用 F 测验,而前者是用 t 测验,两者所得结论相同。当处理均方(大均方)自由度 df 1 为 1 时,不论误差均方自由度 df 2 为何值, F 与 t 均有一定关系:即 F= 这一规律。其数学证明如下:�

六、直线回归的区间估计

由于直线回归方程 皆由随机样本资料而得,必然存在着抽样误差。因此,由回归方程给出的点估计的精确性受到 和 a 、 b 误差大小的影响。合理的方法是考虑到抽样误差的影响,进行区间估计。

(一)、回归截距和回归系数的置信区间

总体回归截距 是 x=0 时的 ( y 总体平均数),样本回归截距 a 则是 x=0 时的 的估计值 ,所以 a 的标准误 ,就是 x=0 时的 。

( 10.24 )

并且 是遵从 df=n-2 的 t 分布。因此对于截距 的 1- 置信区间为:

( 10.25 )

b 的标准误见公式( 10.16 ),根据( 10.17 )可得 的 1- 置信区间为:

[ ] ( 10.26 )

上述对于 和 的置信区间可在两种情况下应用: ① 当 a 、 b 具有专业上的实际意义时; ② 当需要测验 a 或 b 与某一理论值的差异显著性时(若预定的理论值不包括在置信区间内,为差异显著,反之为不显著)。

例 10-7 :计算表 10-1 资料所得的 b 的总体回归系数 的 95% 置信度的区间。

前面已算得: n=5 df=3

P=95% 时: ( )

( )

所以 的 95% 置信度的区间为: 0.0533 ≤ ≤ 0.1167

此区间说明:该梨品种在盛花后 天内,其果实细胞数平均每天增长在 ( )之间 , 这一推断的置信度为 95% 。

( 二 ) 、各 上的总体平均数 的置信区间

在直线回归模型中,任一 上均存在一个正态分布的 y 总体,而我们只能利用直线回归方程 ,由 估计各 y 正态总体的平均数 。如前所述,这一估计的精确度必然受到 和 b 的抽样误差的影响。 的标准误为:

( 10.27 )

因为 服从 df=n-2 的 t 分布,则包含 的 置信区间为:

[ ] ( 10.28 )

例 10-8 :用表 10-1 资料,计算盛花后天数 x=10 时,果实平均细胞数( )的 95% 的置信区间。

前面已算得:

直线回归方程: ,将 x=10 代入方程得: =0.9390

由公式( 10.27 )得:

当 df=3 时, ,根据( 10.28 )式算得:

( 个)

所以: 0.4698 ≤ ≤ 1.4082

此区间的意义是:盛花后 10 天,该梨品种果实细胞数的总体平均数的置信区间是 ( 个),此推论的置信度为 95% 。

(三)、各 上的总体观察值 的预测区间

在园艺植物生产和科学研究实践中,常常不仅需要了解总体参数的置信区间,有时还希望知道总体观察值的存在区间。例如在研究某地春季雨量和梨锈病的侵染期的回归关系时,知道总体平均侵染时期固然重要,但从防治工作来看,了解其侵染期最早年份会在何时,最迟年份有多在何时?其价值将更大。双变数资料可利用直线回归模型,对 x 为某一值时, y 总体观察值的存在范围进行预测。

y 的标准误 为:

( 10.29 )

而 近似服从 df=n-2 的 t 分布,故保证概率为 的 y 的预测区间为:

[ ] ( 10.30 )

例 10-9 :用表 10-1 资料,计算盛花后天数 x=10 时,保证概率为 95% 的 y 的预测区间。

将例 10-8 中已知的的数据代入公式( 10.29 )得:

上面算得: x=10 时, =0.9390

当 df=3 时, ,根据( 10.30 )式算得:

( 个)

此区间说明:盛花后 10 天,该梨品种果实细胞数观察值 y 的预测区间是 ( 个),可靠度为 95% 。

上述置信区间和预测区间的统计概念是不同的。置信区间是用于推断总体参数(常量),如 等的存在区间;预测区间则是 用于推断某一变量,如 的变化范围。

由公式( 10.27 )和 (10.29) 可见, x 值越大, 和 也越大,推断区间的精确度越差;但 n 和 愈大, 和 愈小,推断区间的精确度提高。因此,增大观察值对数( n )和扩大 x 变数的范围( 也增大)是提高回归估计精确度的重要手段。

热心网友 时间:2023-10-22 16:33

回归是指由一个 ( 或几个 ) 变数的变化来预测另一个变数的变化。预测的方法是通过回归方程来实现的,回归分析的方法在园艺植物的生产和科学研究中有着广泛的应用,如利用温度或雨量的变化,预测某种园艺植物的主要物侯期 ( 萌芽、开花 ) 、产量、品质以及病虫害发生,应用实生苗的某些性状,预测成年树的某些性状等。�

一、直线回归方程式�

将 x 与 y 两个变数的 n 对观察值 ( ) , ( ) ,…… ( ) 分别以座标点的形式标记于同一直角座标平面上,作成散点图,如果这两个变数的 n 对观察值在散点图上呈线性,则说明两变数间的数量关系可用直线回归方程来表示。在解析几何上,表示一个平面上的任何直线方程的一般形式为:�

(10.1) �

上式称为“ y 依 x 的直线回归方程”, x 是自变数。 是和 x 的量相对应的依变数 y 的点估测值。 a 是 x=0 时的 值,也是回归直线在 y 轴上的截距,叫做回归截距。 b 是回归系数,表示 x 每增加一个单位, 平均将要增加 (b > 0) 或减少 (b < 0) 的单位数。�

要使 成为实际资料的最佳线性配合,并满足预测要求,必须使离回归平方和 = 最小。�

为使 = 最小,需分别对 a 和 b 求偏导数,并令之为 0 :�

则 :

简化以上二式,得一组联立方程式:

由方程式 (1) 得 (10.2) �

将 (10.2) 式代入方程式 (2) ,并展开、合并、移项后,得:

� ( 10.3 )

( 10.3 )中的分子为 x 和 y 变数的离均差的乘积和 (sum of procts) ,记作 SP 。

上述求解 a 和 b 的程序称为最小平方法。由此 a 和 b 构成的回归方程具有三个基本性质: 1 、 = 最小。 2 、 。 3 、当 时, ,回归直线必通过点 ( ) 。因为将 (10.2) 式代入 (10.1) 式后可得直线回归方程的另一常见形式为:� ( 10.4 )

将 代如此式,得 。

由于 具有上述三个基本特征,所以该方程是实际资料的线性最佳配合。

二、直线回归方程式的计算及回归直线图�

例 10-1 :表 10-1 为某砂梨品种 1983 年在江苏扬州盛花后天数与果实细胞数增长的关系,试建立回归方程:�

表 10-1 盛花后天数与梨果实细胞数

盛花后天数( X )
果实细胞数(

7
0.56

14
1.25

21
2.07

28
2.66

35
2.83



将例 10-1 的 5 对观察值做成散点图 ( 图 10-1) ,呈现较明显的直线趋势,果实细胞数随着盛花后天数的增加而增加。在建立该资料回归方程时,首先需计算出 6 个一级数据:



n=5 �

由 6 个一级数据可算得 5 个 2 级数据:�



将上述二级数据分别代入公式 (10.3) 和 (10.2) 得:



表 (10-1) 资料的直线回归方程为:�

此方程表明,在盛花后 7 天至 35 天这段时期,每天梨果实的细胞数可平均增加 8.50 × 10 个,回归截距 a 在此没有专业意义。如将该直线方程作图表示时,可把观察值中 x 的最小和最大值代入该方程式:�

当 x=7 时, ,当 x=35 时,

将 (7 , 0.6840) 和 (35 , 3.0640) 两座标点在图上连成一条直线,如图 (10-1) 所示。为验证这一方程式是否正确,根据前述直线回归方程性质 3 ,可将 代入方程式,如果 ,则一定正确。本例将 代入得:



由此,也可核对作图是否正确。

图 10-1 盛花后天数与梨果实细胞数增长的关系

在作回归直线图时,以 x 变数为横坐标, y 变数为纵坐标,并标明名称和单位。若不是以零起始的,要在近原点处划一折断号。划出直线图后,应将实际观察各点标明在图上,且将回归方程以及相关系数(或决定系数)分别标于直线的上方或下方。同时应注意,绘制的回归直线两端不要超出 x 变数的取值范围。

例 10-2 :取粉皮冬瓜雌花谢花后7--11天的果实,测其果实纵径( cm ),得结果于表 10-2 。试求直线回归方程。

表 10-2 粉皮冬瓜雌花谢花后天数与果实纵径关系

谢花后天数
7 8 9 10 11
果实纵径(cm)
14.3 16.8 17.2 17.6 18.5

按例 10-1 的计算方法可得:

得回归方程:

b= 0.92cm 表示该冬瓜雌花谢花后 7--11天内,每增长一天,果实纵径平均增加 0.92cm ; a=8.60 在此资料中有专业意义,表示雌花还未谢时(即将谢花),果实纵径平均为 8.60cm 。

三、直线回归方程估计标准误�

图 10-1 可见,由回归方程所得到的理论值 ,通常并不能和实际观察值 (y) 相吻合,但回归方程满足 = 最小这一基本性质。因此, 是各个 上 y 总体平均数的最好估计,这就如同在一个变数的随机样本中, 的代表性要比任一观察值 更为合理。由于在回归模型中,各个 上都有一个 y 总体分布,为了衡量回归方程的预测精确度,必须了解这些 y 总体分布的标准差或变异度。这个标准差或变异度的统计数叫做直线回归的估计标准误,也称离回归标准差,记作 ,计算公式为:�

( 10.5 )

的意义在于各观察值 (y) 与预测值 ( ) 愈接近,即各散点愈近于回归直线, 愈小,如果散点均落在直线上,则 = 0 ;反之,离开回归直线愈远,则 愈大。

公式 (10.5) 中, Q 称为离回归平方和或剩余平方和。因为各散点的 y 值与对应预测值 ( ) 的差异 ( ) ,其值有正有负, ,故须将各 ( ) 先平方,再累加起来,这与计算单变数样本平方和的道理是一样的。由于在建立直线回归方程时,用了 a 和 b 两个统计数,故 的自由度应为 =n-2 。�

由于用 直接计算 Q 时,步骤多而繁锁,加之如保留末位数不够,易产生较大计算误差,常采用以下恒等式计算:



故 ( 10.6 )

(10.7)

(10.8)

上述三个公式中,以( 10.6 )式的计算结果最为精确,因为( 10.6 )式中均使用二级数据,而公式( 10.7 )和( 10.8) 中,不仅使用了二级数据,也使用了*数据,而*数据往往因小数点后保留的末位数不足,影响到 Q 值的精确度,故实际计算 Q 值时,以使用公式( 10.6 )为好。�

例 10-3 :试计算表 10-1 和表 10-2 资料的直线回归估计标准误�

由表 10-1 资料已计算出:

=3.6861 =490.0000 SP=41.6500 �

代入公式( 10.6 )得:�

Q=3.6861-

将 Q=0.1459 代入公式 (10.5) 得:�

( 个)

上述计算说明:用回归方程 =0.0890+0.0850X 表示盛花后天数与果实细胞数之间的回归关系,有一个 =0.2205 的估计标准误。

由表 10-1 资料已计算出:

=9.908 =10 SP=9.200 �

Q=9.908

= (cm)

=0.694 说明由 =8.60+0.92x 估测果实纵径 y 时,有一个 =0.694 的估测标准误。

的统计意义是:在 ± 区间内,可期望包括 68.27% 的 y 观察值;在 ± 2 区间内,可期望包括 95.45% 的 y 观察值;在 ± 3 区间内,可期望包括 99.73% 的 y 观察值;在 ± 1.96 区间内,可期望包括 95% 的 y 观察值;在 ± 2.58 区间内,可期望包括 99% 的 y 观察值。

四、直线回归模型

在双变数资料中,观察值 的直线回归数学模型为:

(10.9)

( )

因 ,上述模型也可写为:

(10.10) �

且有:

上面式中, 为 y 在各 上正态分布的总体平均数,其样本估计值为 ; 和 分别为 y 和 x 两变数的总体平均数,样本估计值是 和 ,α和β是直线回归总体的回归截距和回归系数,样本估计值分别是 a 和 b 。

本章所述直线回归分析,是建立在 (10.9) 式 (10.10) 基本之上的。了解建立回归模型的两个基本前提,有助于正确地进行回归分析。�

1. 在可能取值区间内,任一 x 值上都存在着一个 y 变数的正态分布总体, x 是没有误差或误差很小的固定变数, y 是随机变数。如果 x 和 y 都是随机变数,则为相关模型。�

2. 各 上的所有 y 总体都服从 的正态分布。即 y 变数有共同的方差 ( ),而总体平均数 ,则随 x 的不同而呈直线变化,变化关系为:�

(10.11) �

在实际应用回归分析时,完全满足上述两个前提的资料并不多见。比如 x 是没有误差或误差很小的固定变数就不易满足;在每一固定的 x 上的 y 总体都属于等方差且平均数呈线性这个条件亦不易满足。因此,直线回归分析结果大多是近似的。一般情况下,当 x 的各个水平皆可控时 ( 这在经过设计的试验中是常遇的,例如肥料试验,各种施肥量是固定可控的 ) ; x 和 y 具有自变数和依变数的关系时;需要由 x 预测 y 时,可以选用回归模型,

五、直线回归的显著性测验�

任何一个双变数资料,若其总体并不存在直线回归关系,但对所属的一个随机样本资料,利用上述方法,仍可建立一个直线回归方程。为了确定是否有真实的直线回归关系,一是需要有关专业知识提供理论基础,二是必须测定该样本来自无直线回归关系的总体的概率大小,当这种概率 P < 0.05 时,我们才能冒较小的危险,确认其所属总体存在着真实的直线回归关系,这就是直线回归的显著性测验,其测验方法可利用 F 测验或 t 测验进行。�

1 、 F 测验�

已知公式 10.4 为:





等式两边平方,累加得:�

移项得:�

(10.12)

恒等式 (10.12) 亦可写为:�

( 10.13 )



上式中, 是方差分析中,经常使用的离均差平方和 ( ) , df=n-1 ; 则是前述的离回归开方和 (Q) ,它与 b 和 X 的变化无关,实际上是回归方程估计误差平方和, = n-2, 离回归均方 ; 是由回归系数 b 的效应和 X 的变化而占有的平方和,故称之为回归平方和,记作 U ,具自由度 dfu=(n-1)-(n-2)=1 ,回归均方 为:�

(10.14)

( 10.13) 式表明,在双变数资料中, y 变数的离均差平方和可分解为回归平方和 (U) 和离回归平方和 (Q) 两部分。因此,如果 y 的变化和 x 的变化无关,说明两变数间无直线回归关系, ,则 = , 是 y 变数的最适合代表值,如果 y 的变化和 x 的变化有关,则 U 值必须显著大于离回归均方 ,表明用 表示 y 变数,要比用 表示更为合理。�

由于回归均方和离回归均方的比值遵循 的 F 分布,则由:�

(10.15) �

可测验直线回归的显著性�

例 10-4: 测验表 10-1 资料回归关系的显著性。�

在例 10-1 和 10-3 已算得, =3.6861 , Q=0.1459 �

则 U= - Q =3.6861-0.1459=3.5402

:盛花后天数与梨果实细胞数的增长之间无直线回归关系, :有直线回归关系方差分析于表 10-3 �

表 10-3 例 10-1 资料回归关系显著性测验�

变异来源
df
SS
MS
F

回 归

离回归
1

3
3.5402

0.1459
3.5402

0.0486
72.844
10.13 34.12

总变异
4
3.6861

因表 10-3 得到 F=72.844 > =34.12 ,故否定 ,推断表 10-1 资料有极显著的直线回归关系。�

2 、 t 测验�

这是测验样本回归系数 b 来自β =0 总体的概率大小,如果这种概率 P < 0.05 ,我们则可以较小的风险,确认该样本所属总体存在着直线回归关系,反之,则认为该样本所属总体无直线回归关系。从统计意义上看,回归系数的显著性测验,实际上也是对回归关系的显著性测验。与样本平均数显著性测验时,需首先计算出平均数的标准误 一样,对回归系数进行 t 测验时,也需计算出回归系数的标准误 。即:

� (10.16) �

则 或 (10.17) �

遵循 df=n-2 的 t 分布。测验时的假设是 :β =0 , :β≠ 0 ,如| t |< ,

接受 ;| t |≥ ,则否定 ,接受 。�

例 10-5: 利用 t 测验,对表 10-1 资料进行直线回归显著性测验。�

假设 :β =0 , :β≠ 0 �

已知: b=0.0850 , Q=0.1459 , =490.0000 �

由公式 (10.16) 和 (10.17) ,得:



查 t 值表, df =3 时, =3.183 , , | t | =8.5341 > ,则否定 ,接受 ,表 9-1 资料存在着极显著的直线回归关系。�

例 10-4 和例 10-5 的 F 测验和 t 测验结果均表明,表 10-1 资料存在极显著的直线回归关系,而且两种测验方法的结果具 F= 的关系。因为就直线回归而论,回归系数的显著性测定实际上就是对回归关系的显著性测定,只不过后者是用 F 测验,而前者是用 t 测验,两者所得结论相同。当处理均方(大均方)自由度 df 1 为 1 时,不论误差均方自由度 df 2 为何值, F 与 t 均有一定关系:即 F= 这一规律。其数学证明如下:�

六、直线回归的区间估计

由于直线回归方程 皆由随机样本资料而得,必然存在着抽样误差。因此,由回归方程给出的点估计的精确性受到 和 a 、 b 误差大小的影响。合理的方法是考虑到抽样误差的影响,进行区间估计。

(一)、回归截距和回归系数的置信区间

总体回归截距 是 x=0 时的 ( y 总体平均数),样本回归截距 a 则是 x=0 时的 的估计值 ,所以 a 的标准误 ,就是 x=0 时的 。

( 10.24 )

并且 是遵从 df=n-2 的 t 分布。因此对于截距 的 1- 置信区间为:

( 10.25 )

b 的标准误见公式( 10.16 ),根据( 10.17 )可得 的 1- 置信区间为:

[ ] ( 10.26 )

上述对于 和 的置信区间可在两种情况下应用: ① 当 a 、 b 具有专业上的实际意义时; ② 当需要测验 a 或 b 与某一理论值的差异显著性时(若预定的理论值不包括在置信区间内,为差异显著,反之为不显著)。

例 10-7 :计算表 10-1 资料所得的 b 的总体回归系数 的 95% 置信度的区间。

前面已算得: n=5 df=3

P=95% 时: ( )

( )

所以 的 95% 置信度的区间为: 0.0533 ≤ ≤ 0.1167

此区间说明:该梨品种在盛花后 天内,其果实细胞数平均每天增长在 ( )之间 , 这一推断的置信度为 95% 。

( 二 ) 、各 上的总体平均数 的置信区间

在直线回归模型中,任一 上均存在一个正态分布的 y 总体,而我们只能利用直线回归方程 ,由 估计各 y 正态总体的平均数 。如前所述,这一估计的精确度必然受到 和 b 的抽样误差的影响。 的标准误为:

( 10.27 )

因为 服从 df=n-2 的 t 分布,则包含 的 置信区间为:

[ ] ( 10.28 )

例 10-8 :用表 10-1 资料,计算盛花后天数 x=10 时,果实平均细胞数( )的 95% 的置信区间。

前面已算得:

直线回归方程: ,将 x=10 代入方程得: =0.9390

由公式( 10.27 )得:

当 df=3 时, ,根据( 10.28 )式算得:

( 个)

所以: 0.4698 ≤ ≤ 1.4082

此区间的意义是:盛花后 10 天,该梨品种果实细胞数的总体平均数的置信区间是 ( 个),此推论的置信度为 95% 。

(三)、各 上的总体观察值 的预测区间

在园艺植物生产和科学研究实践中,常常不仅需要了解总体参数的置信区间,有时还希望知道总体观察值的存在区间。例如在研究某地春季雨量和梨锈病的侵染期的回归关系时,知道总体平均侵染时期固然重要,但从防治工作来看,了解其侵染期最早年份会在何时,最迟年份有多在何时?其价值将更大。双变数资料可利用直线回归模型,对 x 为某一值时, y 总体观察值的存在范围进行预测。

y 的标准误 为:

( 10.29 )

而 近似服从 df=n-2 的 t 分布,故保证概率为 的 y 的预测区间为:

[ ] ( 10.30 )

例 10-9 :用表 10-1 资料,计算盛花后天数 x=10 时,保证概率为 95% 的 y 的预测区间。

将例 10-8 中已知的的数据代入公式( 10.29 )得:

上面算得: x=10 时, =0.9390

当 df=3 时, ,根据( 10.30 )式算得:

( 个)

此区间说明:盛花后 10 天,该梨品种果实细胞数观察值 y 的预测区间是 ( 个),可靠度为 95% 。

上述置信区间和预测区间的统计概念是不同的。置信区间是用于推断总体参数(常量),如 等的存在区间;预测区间则是 用于推断某一变量,如 的变化范围。

由公式( 10.27 )和 (10.29) 可见, x 值越大, 和 也越大,推断区间的精确度越差;但 n 和 愈大, 和 愈小,推断区间的精确度提高。因此,增大观察值对数( n )和扩大 x 变数的范围( 也增大)是提高回归估计精确度的重要手段。

热心网友 时间:2023-10-22 16:34

  一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:
  1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        
  (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:34

一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:34

  一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:
  1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        
  (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:35

您好!
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方 程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:34

一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:35

您好!
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方 程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:33

回归是指由一个 ( 或几个 ) 变数的变化来预测另一个变数的变化。预测的方法是通过回归方程来实现的,回归分析的方法在园艺植物的生产和科学研究中有着广泛的应用,如利用温度或雨量的变化,预测某种园艺植物的主要物侯期 ( 萌芽、开花 ) 、产量、品质以及病虫害发生,应用实生苗的某些性状,预测成年树的某些性状等。�

一、直线回归方程式�

将 x 与 y 两个变数的 n 对观察值 ( ) , ( ) ,…… ( ) 分别以座标点的形式标记于同一直角座标平面上,作成散点图,如果这两个变数的 n 对观察值在散点图上呈线性,则说明两变数间的数量关系可用直线回归方程来表示。在解析几何上,表示一个平面上的任何直线方程的一般形式为:�

(10.1) �

上式称为“ y 依 x 的直线回归方程”, x 是自变数。 是和 x 的量相对应的依变数 y 的点估测值。 a 是 x=0 时的 值,也是回归直线在 y 轴上的截距,叫做回归截距。 b 是回归系数,表示 x 每增加一个单位, 平均将要增加 (b > 0) 或减少 (b < 0) 的单位数。�

要使 成为实际资料的最佳线性配合,并满足预测要求,必须使离回归平方和 = 最小。�

为使 = 最小,需分别对 a 和 b 求偏导数,并令之为 0 :�

则 :

简化以上二式,得一组联立方程式:

由方程式 (1) 得 (10.2) �

将 (10.2) 式代入方程式 (2) ,并展开、合并、移项后,得:

� ( 10.3 )

( 10.3 )中的分子为 x 和 y 变数的离均差的乘积和 (sum of procts) ,记作 SP 。

上述求解 a 和 b 的程序称为最小平方法。由此 a 和 b 构成的回归方程具有三个基本性质: 1 、 = 最小。 2 、 。 3 、当 时, ,回归直线必通过点 ( ) 。因为将 (10.2) 式代入 (10.1) 式后可得直线回归方程的另一常见形式为:� ( 10.4 )

将 代如此式,得 。

由于 具有上述三个基本特征,所以该方程是实际资料的线性最佳配合。

二、直线回归方程式的计算及回归直线图�

例 10-1 :表 10-1 为某砂梨品种 1983 年在江苏扬州盛花后天数与果实细胞数增长的关系,试建立回归方程:�

表 10-1 盛花后天数与梨果实细胞数

盛花后天数( X )
果实细胞数(

7
0.56

14
1.25

21
2.07

28
2.66

35
2.83



将例 10-1 的 5 对观察值做成散点图 ( 图 10-1) ,呈现较明显的直线趋势,果实细胞数随着盛花后天数的增加而增加。在建立该资料回归方程时,首先需计算出 6 个一级数据:



n=5 �

由 6 个一级数据可算得 5 个 2 级数据:�



将上述二级数据分别代入公式 (10.3) 和 (10.2) 得:



表 (10-1) 资料的直线回归方程为:�

此方程表明,在盛花后 7 天至 35 天这段时期,每天梨果实的细胞数可平均增加 8.50 × 10 个,回归截距 a 在此没有专业意义。如将该直线方程作图表示时,可把观察值中 x 的最小和最大值代入该方程式:�

当 x=7 时, ,当 x=35 时,

将 (7 , 0.6840) 和 (35 , 3.0640) 两座标点在图上连成一条直线,如图 (10-1) 所示。为验证这一方程式是否正确,根据前述直线回归方程性质 3 ,可将 代入方程式,如果 ,则一定正确。本例将 代入得:



由此,也可核对作图是否正确。

图 10-1 盛花后天数与梨果实细胞数增长的关系

在作回归直线图时,以 x 变数为横坐标, y 变数为纵坐标,并标明名称和单位。若不是以零起始的,要在近原点处划一折断号。划出直线图后,应将实际观察各点标明在图上,且将回归方程以及相关系数(或决定系数)分别标于直线的上方或下方。同时应注意,绘制的回归直线两端不要超出 x 变数的取值范围。

例 10-2 :取粉皮冬瓜雌花谢花后7--11天的果实,测其果实纵径( cm ),得结果于表 10-2 。试求直线回归方程。

表 10-2 粉皮冬瓜雌花谢花后天数与果实纵径关系

谢花后天数
7 8 9 10 11
果实纵径(cm)
14.3 16.8 17.2 17.6 18.5

按例 10-1 的计算方法可得:

得回归方程:

b= 0.92cm 表示该冬瓜雌花谢花后 7--11天内,每增长一天,果实纵径平均增加 0.92cm ; a=8.60 在此资料中有专业意义,表示雌花还未谢时(即将谢花),果实纵径平均为 8.60cm 。

三、直线回归方程估计标准误�

图 10-1 可见,由回归方程所得到的理论值 ,通常并不能和实际观察值 (y) 相吻合,但回归方程满足 = 最小这一基本性质。因此, 是各个 上 y 总体平均数的最好估计,这就如同在一个变数的随机样本中, 的代表性要比任一观察值 更为合理。由于在回归模型中,各个 上都有一个 y 总体分布,为了衡量回归方程的预测精确度,必须了解这些 y 总体分布的标准差或变异度。这个标准差或变异度的统计数叫做直线回归的估计标准误,也称离回归标准差,记作 ,计算公式为:�

( 10.5 )

的意义在于各观察值 (y) 与预测值 ( ) 愈接近,即各散点愈近于回归直线, 愈小,如果散点均落在直线上,则 = 0 ;反之,离开回归直线愈远,则 愈大。

公式 (10.5) 中, Q 称为离回归平方和或剩余平方和。因为各散点的 y 值与对应预测值 ( ) 的差异 ( ) ,其值有正有负, ,故须将各 ( ) 先平方,再累加起来,这与计算单变数样本平方和的道理是一样的。由于在建立直线回归方程时,用了 a 和 b 两个统计数,故 的自由度应为 =n-2 。�

由于用 直接计算 Q 时,步骤多而繁锁,加之如保留末位数不够,易产生较大计算误差,常采用以下恒等式计算:



故 ( 10.6 )

(10.7)

(10.8)

上述三个公式中,以( 10.6 )式的计算结果最为精确,因为( 10.6 )式中均使用二级数据,而公式( 10.7 )和( 10.8) 中,不仅使用了二级数据,也使用了*数据,而*数据往往因小数点后保留的末位数不足,影响到 Q 值的精确度,故实际计算 Q 值时,以使用公式( 10.6 )为好。�

例 10-3 :试计算表 10-1 和表 10-2 资料的直线回归估计标准误�

由表 10-1 资料已计算出:

=3.6861 =490.0000 SP=41.6500 �

代入公式( 10.6 )得:�

Q=3.6861-

将 Q=0.1459 代入公式 (10.5) 得:�

( 个)

上述计算说明:用回归方程 =0.0890+0.0850X 表示盛花后天数与果实细胞数之间的回归关系,有一个 =0.2205 的估计标准误。

由表 10-1 资料已计算出:

=9.908 =10 SP=9.200 �

Q=9.908

= (cm)

=0.694 说明由 =8.60+0.92x 估测果实纵径 y 时,有一个 =0.694 的估测标准误。

的统计意义是:在 ± 区间内,可期望包括 68.27% 的 y 观察值;在 ± 2 区间内,可期望包括 95.45% 的 y 观察值;在 ± 3 区间内,可期望包括 99.73% 的 y 观察值;在 ± 1.96 区间内,可期望包括 95% 的 y 观察值;在 ± 2.58 区间内,可期望包括 99% 的 y 观察值。

四、直线回归模型

在双变数资料中,观察值 的直线回归数学模型为:

(10.9)

( )

因 ,上述模型也可写为:

(10.10) �

且有:

上面式中, 为 y 在各 上正态分布的总体平均数,其样本估计值为 ; 和 分别为 y 和 x 两变数的总体平均数,样本估计值是 和 ,α和β是直线回归总体的回归截距和回归系数,样本估计值分别是 a 和 b 。

本章所述直线回归分析,是建立在 (10.9) 式 (10.10) 基本之上的。了解建立回归模型的两个基本前提,有助于正确地进行回归分析。�

1. 在可能取值区间内,任一 x 值上都存在着一个 y 变数的正态分布总体, x 是没有误差或误差很小的固定变数, y 是随机变数。如果 x 和 y 都是随机变数,则为相关模型。�

2. 各 上的所有 y 总体都服从 的正态分布。即 y 变数有共同的方差 ( ),而总体平均数 ,则随 x 的不同而呈直线变化,变化关系为:�

(10.11) �

在实际应用回归分析时,完全满足上述两个前提的资料并不多见。比如 x 是没有误差或误差很小的固定变数就不易满足;在每一固定的 x 上的 y 总体都属于等方差且平均数呈线性这个条件亦不易满足。因此,直线回归分析结果大多是近似的。一般情况下,当 x 的各个水平皆可控时 ( 这在经过设计的试验中是常遇的,例如肥料试验,各种施肥量是固定可控的 ) ; x 和 y 具有自变数和依变数的关系时;需要由 x 预测 y 时,可以选用回归模型,

五、直线回归的显著性测验�

任何一个双变数资料,若其总体并不存在直线回归关系,但对所属的一个随机样本资料,利用上述方法,仍可建立一个直线回归方程。为了确定是否有真实的直线回归关系,一是需要有关专业知识提供理论基础,二是必须测定该样本来自无直线回归关系的总体的概率大小,当这种概率 P < 0.05 时,我们才能冒较小的危险,确认其所属总体存在着真实的直线回归关系,这就是直线回归的显著性测验,其测验方法可利用 F 测验或 t 测验进行。�

1 、 F 测验�

已知公式 10.4 为:





等式两边平方,累加得:�

移项得:�

(10.12)

恒等式 (10.12) 亦可写为:�

( 10.13 )



上式中, 是方差分析中,经常使用的离均差平方和 ( ) , df=n-1 ; 则是前述的离回归开方和 (Q) ,它与 b 和 X 的变化无关,实际上是回归方程估计误差平方和, = n-2, 离回归均方 ; 是由回归系数 b 的效应和 X 的变化而占有的平方和,故称之为回归平方和,记作 U ,具自由度 dfu=(n-1)-(n-2)=1 ,回归均方 为:�

(10.14)

( 10.13) 式表明,在双变数资料中, y 变数的离均差平方和可分解为回归平方和 (U) 和离回归平方和 (Q) 两部分。因此,如果 y 的变化和 x 的变化无关,说明两变数间无直线回归关系, ,则 = , 是 y 变数的最适合代表值,如果 y 的变化和 x 的变化有关,则 U 值必须显著大于离回归均方 ,表明用 表示 y 变数,要比用 表示更为合理。�

由于回归均方和离回归均方的比值遵循 的 F 分布,则由:�

(10.15) �

可测验直线回归的显著性�

例 10-4: 测验表 10-1 资料回归关系的显著性。�

在例 10-1 和 10-3 已算得, =3.6861 , Q=0.1459 �

则 U= - Q =3.6861-0.1459=3.5402

:盛花后天数与梨果实细胞数的增长之间无直线回归关系, :有直线回归关系方差分析于表 10-3 �

表 10-3 例 10-1 资料回归关系显著性测验�

变异来源
df
SS
MS
F

回 归

离回归
1

3
3.5402

0.1459
3.5402

0.0486
72.844
10.13 34.12

总变异
4
3.6861

因表 10-3 得到 F=72.844 > =34.12 ,故否定 ,推断表 10-1 资料有极显著的直线回归关系。�

2 、 t 测验�

这是测验样本回归系数 b 来自β =0 总体的概率大小,如果这种概率 P < 0.05 ,我们则可以较小的风险,确认该样本所属总体存在着直线回归关系,反之,则认为该样本所属总体无直线回归关系。从统计意义上看,回归系数的显著性测验,实际上也是对回归关系的显著性测验。与样本平均数显著性测验时,需首先计算出平均数的标准误 一样,对回归系数进行 t 测验时,也需计算出回归系数的标准误 。即:

� (10.16) �

则 或 (10.17) �

遵循 df=n-2 的 t 分布。测验时的假设是 :β =0 , :β≠ 0 ,如| t |< ,

接受 ;| t |≥ ,则否定 ,接受 。�

例 10-5: 利用 t 测验,对表 10-1 资料进行直线回归显著性测验。�

假设 :β =0 , :β≠ 0 �

已知: b=0.0850 , Q=0.1459 , =490.0000 �

由公式 (10.16) 和 (10.17) ,得:



查 t 值表, df =3 时, =3.183 , , | t | =8.5341 > ,则否定 ,接受 ,表 9-1 资料存在着极显著的直线回归关系。�

例 10-4 和例 10-5 的 F 测验和 t 测验结果均表明,表 10-1 资料存在极显著的直线回归关系,而且两种测验方法的结果具 F= 的关系。因为就直线回归而论,回归系数的显著性测定实际上就是对回归关系的显著性测定,只不过后者是用 F 测验,而前者是用 t 测验,两者所得结论相同。当处理均方(大均方)自由度 df 1 为 1 时,不论误差均方自由度 df 2 为何值, F 与 t 均有一定关系:即 F= 这一规律。其数学证明如下:�

六、直线回归的区间估计

由于直线回归方程 皆由随机样本资料而得,必然存在着抽样误差。因此,由回归方程给出的点估计的精确性受到 和 a 、 b 误差大小的影响。合理的方法是考虑到抽样误差的影响,进行区间估计。

(一)、回归截距和回归系数的置信区间

总体回归截距 是 x=0 时的 ( y 总体平均数),样本回归截距 a 则是 x=0 时的 的估计值 ,所以 a 的标准误 ,就是 x=0 时的 。

( 10.24 )

并且 是遵从 df=n-2 的 t 分布。因此对于截距 的 1- 置信区间为:

( 10.25 )

b 的标准误见公式( 10.16 ),根据( 10.17 )可得 的 1- 置信区间为:

[ ] ( 10.26 )

上述对于 和 的置信区间可在两种情况下应用: ① 当 a 、 b 具有专业上的实际意义时; ② 当需要测验 a 或 b 与某一理论值的差异显著性时(若预定的理论值不包括在置信区间内,为差异显著,反之为不显著)。

例 10-7 :计算表 10-1 资料所得的 b 的总体回归系数 的 95% 置信度的区间。

前面已算得: n=5 df=3

P=95% 时: ( )

( )

所以 的 95% 置信度的区间为: 0.0533 ≤ ≤ 0.1167

此区间说明:该梨品种在盛花后 天内,其果实细胞数平均每天增长在 ( )之间 , 这一推断的置信度为 95% 。

( 二 ) 、各 上的总体平均数 的置信区间

在直线回归模型中,任一 上均存在一个正态分布的 y 总体,而我们只能利用直线回归方程 ,由 估计各 y 正态总体的平均数 。如前所述,这一估计的精确度必然受到 和 b 的抽样误差的影响。 的标准误为:

( 10.27 )

因为 服从 df=n-2 的 t 分布,则包含 的 置信区间为:

[ ] ( 10.28 )

例 10-8 :用表 10-1 资料,计算盛花后天数 x=10 时,果实平均细胞数( )的 95% 的置信区间。

前面已算得:

直线回归方程: ,将 x=10 代入方程得: =0.9390

由公式( 10.27 )得:

当 df=3 时, ,根据( 10.28 )式算得:

( 个)

所以: 0.4698 ≤ ≤ 1.4082

此区间的意义是:盛花后 10 天,该梨品种果实细胞数的总体平均数的置信区间是 ( 个),此推论的置信度为 95% 。

(三)、各 上的总体观察值 的预测区间

在园艺植物生产和科学研究实践中,常常不仅需要了解总体参数的置信区间,有时还希望知道总体观察值的存在区间。例如在研究某地春季雨量和梨锈病的侵染期的回归关系时,知道总体平均侵染时期固然重要,但从防治工作来看,了解其侵染期最早年份会在何时,最迟年份有多在何时?其价值将更大。双变数资料可利用直线回归模型,对 x 为某一值时, y 总体观察值的存在范围进行预测。

y 的标准误 为:

( 10.29 )

而 近似服从 df=n-2 的 t 分布,故保证概率为 的 y 的预测区间为:

[ ] ( 10.30 )

例 10-9 :用表 10-1 资料,计算盛花后天数 x=10 时,保证概率为 95% 的 y 的预测区间。

将例 10-8 中已知的的数据代入公式( 10.29 )得:

上面算得: x=10 时, =0.9390

当 df=3 时, ,根据( 10.30 )式算得:

( 个)

此区间说明:盛花后 10 天,该梨品种果实细胞数观察值 y 的预测区间是 ( 个),可靠度为 95% 。

上述置信区间和预测区间的统计概念是不同的。置信区间是用于推断总体参数(常量),如 等的存在区间;预测区间则是 用于推断某一变量,如 的变化范围。

由公式( 10.27 )和 (10.29) 可见, x 值越大, 和 也越大,推断区间的精确度越差;但 n 和 愈大, 和 愈小,推断区间的精确度提高。因此,增大观察值对数( n )和扩大 x 变数的范围( 也增大)是提高回归估计精确度的重要手段。

热心网友 时间:2023-10-22 16:34

  一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:
  1.列回归计算表,计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        
  (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:34

一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

热心网友 时间:2023-10-22 16:35

您好!
一、直线回归方程的意义 计算出相关系数后,如果r显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称X为自变量,Y为应变量。这种关系在数学上被称为Y是X的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:=a+bX(9.5) 式(9.4)为由X推算得来的Y值,即Y的估计值:a称为截距,它是当X=0时的 值,即回归直线与纵轴的交点:b称为回归系数,它是回归直线的斜率,其含意是当X每增加一个单位时, 相应增(或减)b个单位。当a与b求得后,直线回归方程就确定了。
二、直线回归方 程的计算法 仍以表9.1资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:1.列回归计算表(见表9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。2.计算X、Y、∑(X-X)2、∑(X-X)(Y-Y)X=∑X/n=15.1/15=1.01Y=∑Y/n=222/15=14.80∑(X-X)2=∑X2-(∑X)2/n=0.2093∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.78003.计算回归系数b和截距a。b和a两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:(9.5) a=Y-bX        (9.6)本例b=-1.7800/0.2093=-8.5045a=14.80-(-8.5045)(1.01)=23.38954.列出回归方程,绘制回归直线,将求得的b和a的值代入到式(9.4),即得所求的回归方程:=23.3895-8.504X 在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个值。例如: 取 X1=0.8,则1=23.3895-8.5045×0.8=16.59, X2=1.2 则2=23.3895-8.5045×1.2=13.18。 连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图9.9)。须注意回归直线必通过(χ,y )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
我这个配置能玩大唐无双2吗 PK什么的能卡么? 求高手解答 这样的配置还要加什么玩大唐无双才不卡 这个配置能玩大唐无双双开吗? windows7旗舰版系统玩大唐无双零双开卡怎么办?卡死了。 玩大唐无双的时候双开过地图太卡怎么解决啊 全民枪战我用QQ号,但它说密码数字英文,下划线组成,应该怎样弄啊?_百 ... 小太阳取暖器头晕呕吐 取暖器用的会头晕吗,可能的原因和使用注意事项 男孩姓孙含越字好名字 简单特别的男孩名字越 中间是越的男孩名字大全 计量经济学计算统计量F,已知RSS,S.D dependent var以及R的平方,该如何求得ESS 计量经济学剩余平方和计算公式 美国恐怖故事第五季ladygaga生的儿子是什么 我做梦梦到跟男朋友躺在一起,然后还拥抱着,我轻轻的亲了他,不过没发生其他的,这样的梦正常么。有点担 美国恐怖故事第五季和第一季有什么联系 求电影名字 ,男的被割舌头挖眼珠放在烟灰缸,女的手被钉在床板上 美国恐怖故事第五季 美国恐怖故事第五季中国大陆什么时候播出 美国恐怖故事第五季第一集几分钟 美国恐怖故事第五季第一集的歌叫什么 如何将PDF格式的文章转化成word形式的? 如何将方正apabi reader阅读器文件中的表格转换成WORD文档(注意是表格,不是文字)。 一个完整的JSP页面包括哪些组件 如何将Apabi Document 转换成word格式 怎么将pdf转word 如何将阿帕比情势转成word 如何将apabi reader转换成word文档? 用流量下载小说的软件是什么 想看书要下载什么才好用 为什么手机QQ阅读器下载不了 房屋赠与合同纠纷的管辖法院是哪个 回归系数剩余均方怎么求? 房产两人有纠纷被另一方赠与他亲戚能要回吗? 什么是总变差,回归变差和剩余变差 房产赠予法律效力房产赠与后,赠与人有经济纠纷,可否收回赠与房产 什么叫拟合度? 中国古代有香皂吗? 线性回归分析是根据剩余平方和什么原则确定回归系数的 肥皂的另一个名字是啥 中国古人有肥皂用吗? 古代皂是什么形状 古代没有洗衣粉,所以衣服是不是又脏又臭还特别油呢? 以前的时候肥皂很珍贵吗? 中国古代有香皂吗 肥皂由来 下了个叫逃生2的游戏用键盘动不了,手柄能动,但是手柄不灵活,想用键盘玩... 逃生2刚开始为啥不能动 为什么我的求生之路2进去游戏后我的鼠标能动键盘不能动了? 键盘动不了怎么回事 游戏中键盘不动了怎么办