问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

高斯-马尔可夫定理 以及为什么最小二乘法是最佳线性无偏估计

发布网友 发布时间:2023-06-22 10:13

我来回答

1个回答

热心网友 时间:2024-04-23 06:48

在做机器学习和线性回归的时候,经常会遇到不讲道理的最小二乘法,优化的目标是(yi-y)^2最小,这个结论非常暴力,为啥不是三次方,四次方,他的来源是什么呢?
本文参考的内容 高斯马尔科夫定理的证明

在 统计学 中,高斯-马尔可夫定理(Gauss-Markov Theorem)陈述的是:在 线性回归 模型中,如果误差满足零 均值 、 同方差 且 互不相关 ,则回归系数的最佳线性 无偏 估计 (BLUE, Best Linear unbiased estimator)就是 普通最小二乘法估计 。

上面的理论言简意赅,但是很多名词的意思需要展开来理解。
1、什么是线性回归?
2、为什么要零均值、同方差、互不相关
3、什么是线性估计,什么是无偏估计?
4、什么是最佳估计,标准是什么?

回归就是利用测量到的数据去尝试计算真实值得一种方法,假设我们测量到了很多的数据,但是我们内心觉得这些数据可能是有线性关系的,那么我们可以利用这些数据去计算(估计)那条真实的“直线”。

线性回归有一些问题值得思考:

这个比较好理解,每一次测量,肯定是存在误差的,如果这个误差的均值是0,形象的理解就是误差可能大一点、也可能小一点,平均起来就是在真值附近变化,而且每次测量的行为都是独立互不影响的。我们就可以定义这个误差的期望是0,方差是一个固定值。

我们也不知道真实值,对误差的这种假设其实一种理想的假设。

线性估计的模型是这样的,beta是一个模型的真实值,他的维度是k维向量,X是我们的样本,他是一个N*K的矩阵,y是我们样本的结果,是一个N维矩阵,epsilon是我们每次测量和真实值的误差。

比如我现在测量了N个学生的身高、体重、起床时间、平时作业成绩。。。。等等这些参数(K个参数),我想知道这些参数和他们的期末考试成绩的线性关系是什么,他们的期末成绩就是y(N维向量),我现在需要估计的beta就是每个参数和期末成绩关系的矩阵。这个方程里面y和x是已知的。

如果N=K,那么这就是一个N元N次方程组,他只有一个解,我们用这个解就能得到一个beta。但是实际情况来说我们可以测量很多学生的值,N可以比K大很多,这种情况下方程组是无解的。(直观理解,那些点并不完全在一条直线、一个平面上)

在这种情况下我需要一种算法去计算一个beta的估计:

这里的C应该是和x有关系的。但是这个C可以有很多形式,他就是一种线性估计

无偏估计的定义大概是这样的:

看着很不直观,但是可以这样理解,无偏估计的意思是我抽取一批样本,然后根据这些样本估计出来的beta,是在真实beta的任意方向等可能存在的,直接一点来说,我把很多批次的估计再来求取一个平均,会更接近于真实的beta,在做无穷多次抽取之后可以任认为这些估计的均值就是真实值。

具体的例子:比如我们要估计总体均值theata,随机抽取一批数据得到样本的均值,这个均值就是无偏的,随着抽取的批次增加,E(E(x)) = theata,也就是均值的均值会得到真实值。

有偏估计是指这个估计的过程中引入了一些系统的误差,最终把很多批次的估计合计起来看,得不到真实的结果。

还有一个和无偏相关的概念——一致性:

关于无偏和一致性这篇文章讲得比较好 深入浅出讲解数理统计——(3)评价估计量的好坏

总结来说:

实际上真实世界中的测量都是有系统误差的,估计出来的值是有偏的,但是如果这个偏差比较小,而且是一致的,那么这个估计量就是有意义的。反之,就算这个估计是无偏的,但是没有一致性,那么只有在穷举之后才能得到那个真实值,这样的估计也是很不好的。

再重复一下开始的假设,在证明过程中,参数都是矩阵形式的、设计到矩阵运算的和矩阵的性质。

现在我们要估计K个系统中的参数,他们组成一个K维向量beta。
OLS(最小二乘法)的估计结果由上图所示,现在的目标就是要证明OLS估计是最佳的

证明如下,带入y,右边出现真值beta,由于epsilon是0均值的,所以OSL估计出来的beta就是真值beta

估计beta的方法有很多种,我们定义最好的一种是,方差最小的,所以最小二乘法是平方而不是三次方、四次方。

也就是说上式中左边的估计方法要优于右边的估计方法,接下来就是证明为什么OSL最小二乘法的方差是最小的

要证明4.2中的不等式成立,那就是要证明下式是 半正定矩阵

假设一个任意的估计矩阵是C,那么这个估计矩阵和OSL的估计矩阵的差异,设为D矩阵,由于两个beta都是无偏估计,那么有:D矩阵性质是DX=0,这里有个条件概率E[DXbeta|X],如果X是已知的,那么DX只是一个常量,这个常量必须恒等于一个k*k的0矩阵

利用了一下这个性质:

高斯-马尔可夫定理 以及为什么最小二乘法是最佳线性无偏估计

在 统计学 中, 高斯-马尔可夫定理(Gauss-Markov Theorem) 陈述的是:在 线性回归 模型中,如果误差满足零 均值 、 同方差 且 互不相关 ,则回归系数的最佳线性 无偏 估计 ( BLUE , Best Linear unbiased estimator)就是 普通最小二乘法估计 。上面的理论言简意赅,但是很多名词的意思需要展开来...

随机(正弦)振动

正弦振动多用于找出产品设计或包装设计的脆弱点。看在哪一个具体频率点响应最大(共振点);正弦振动在任一瞬间只包含一种频率的振动,而随机振动在任一瞬间包含频谱范围内的各种频率的振动。由于随机振动包含频谱内所有的频率,所以样品上的共...

最小二乘法与高斯-马尔可夫定理

总的来说,最小二乘法与高斯-马尔可夫定理是统计学中的基石,它们确保了线性模型中估计量的精确性和有效性。深入理解这两个概念,有助于我们更好地应用它们在实际问题中进行数据分析和预测。

解释最佳线性无偏估计量(blue)

1. 定义:线性估计是参数估计中最为重要的一类,它广泛应用于各个领域。高斯-马尔可夫定理指出,在经典线性回归模型的假设条件下,最小二乘估计量是所有线性无偏估计量中方差最小的一个。2. 意义:该定理的意义在于,一旦这些经典假设得到满足,我们无需寻找其他无偏估计量。因为不存在一个无偏估计量能够...

什么是马尔可夫定理的线性无偏估计量?

高斯—马尔可夫定理是指在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量的这一定理。高斯--马尔可夫定理的意义在于,当经典假定成立时,我们不需要再去寻找其它无偏估计量,没有一个会优于普通最小二乘估计量。也就是说,如果存在一个好的线性无偏估计量,这个估计量的方差最...

高斯马尔科夫定理名词解释

高斯-马尔可夫定理是线性回归分析中的一个重要理论,它指出,在特定条件下,普通最小二乘法(OLS)是估计线性回归模型参数的无偏且最优的方法。这些条件包括误差项具有零均值、恒定的方差,并且彼此之间不相关。根据该定理,采用普通最小二乘法得到的回归系数估计值,不仅在所有线性估计中具有最小的方差,...

高斯—马尔可夫定理高斯-马尔科夫定理的定义

在经典线性回归模型的背景下,高斯-马尔可夫定理阐述了一个重要的理论。这个定理指出,当满足特定的假设条件时,最小二乘估计量具有一个独特的地位,它被证明是所有线性无偏估计量中,具有最低方差的选项。换句话说,当你寻求一个无偏且线性的最佳估计,最小二乘估计量提供了无可比拟的效率,其方差不会...

函数发展的历史

回答:函数概念是全部数学概念中最重要的概念之一,纵观300年来函数概念的发展,众多数学家从集合、代数、直至对应、集合的角度不断赋予函数概念以新的思想,从而推动了整个数学的发展。本文拟通过对函数概念的发展与比较的研究,对函数概念的教学进行一些探索。 1、函数概念的纵向发展 1.1 早期函数概念——几何...

高斯马尔科夫定理名词解释

在统计学中,高斯-马尔可夫定理(Gauss-Markov Theorem)陈述的是:在线性回归模型中,如果误差满足零均值、同方差且互不相关,则回归系数的最佳线性无偏估计(BLUE, Best Linear unbiased estimator)就是普通最小二乘法估计。这里最佳的意思是指相较于其他估计量有更小方差的估计量,同时把对估计量的寻找...

最优线性无偏性的高斯-马尔科夫定理

在给定经典线性回归模型的假定下,最小二乘估计量,在无偏线性估计量一类中,有最小方差,即它们满足最优线性无偏性。

高斯—马尔可夫定理高斯-马尔科夫定理的具体内容

高斯-马尔可夫定理,以其严谨的统计学假设,为普通最小二乘法(OLS)提供了理论基础。该定理主要基于五个关键假设:首先,MLR.1 线性参数假设:模型中的母群体参数,如y=α+b1x1+b2x2+...+bkxk+u,要求所有系数a, b1, b2...bk为常数,确保了模型的线性关系。u是未被模型捕捉的误差,代表了无法...

高斯•马尔可夫定理 高斯马尔可夫定理的结论 高斯马尔可夫定理的历史 高斯牛顿法 最小二乘法 高斯马可夫定理 高斯马尔科夫线性模型 证明高斯马尔科夫定理 高斯马尔科夫定理内容 高斯马尔可夫6个假定
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
穷人最快的挣钱方法有哪些 ...下雨了。即兴做的一首诗是什么?把题目、诗句写出来。谢谢 这一单元,我们跟随诗人漫步诗海,现在是不是诗兴大发,也想即兴创作... 给于勒写一首小诗!急求!!! 王者荣耀传说之刃花木兰和曹操那个厉害 凸透镜成像实验怎么做 凸透镜成像有什么规律 玩英雄联盟的时候电脑叫鼠标键盘都不收控制是什么情况 下列各项不属于初始地籍调查后应归档的成果资料的是( )。 地籍测量的基本流程 可莉的好朋友叫什么名字? 最佳线性无偏估计量的英语是什么? 1吨污水加多少絮凝剂 ...厂活性污泥脱泥的絮凝剂中,加什么药品,絮凝剂的小试样品效果更好些... 教育机构漏税后补开发票有用吗 成都培训机构还能补课吗 教育机构可以收取补课费吗? 绕指柔是菩提还是玉石? 韩剧的电视剧推荐 网上工商注册:注册公司名称查询核名这些规则你知道吗 在哪里查询医保智能审核规则是否正确 国际站哪个频道可以查询规则? 能了解下中国银行新企业网银信用报告查询规则吗? 成年以后,普通家庭的孩子容错率越来越低了 马铃薯是单子叶植物吗? 土豆成熟叶子的样子 马铃薯短叶片种的形态特征是什么? ...的和是86,如果分子和分母都减去9,得到的分数是九分之八? ...分子,分母是连续的奇数,求这个假分数是多少 86%的计算单位是(),它有()个这样的分数单位。 一个假分数,它的分子是86,把它化成带分数,那他的带分数和分子分母是连... 高斯马尔科夫定理名词解释 高斯马尔科夫的经典假设有那些?存在哪些违背假设的情况?它的症状是什... 计量经济学课后习题 ...Approach to Linear Filtering and Prediction Problems 中文翻译... 鸡格朗鱼的嘌呤高不高 产品设计师是做什么的 怎样成为合格的产品设计师 产品设计师怎么做好产品设计 如何做好一个产品设计师 三亚市山屿湖小区的所在街道及邮编 牛鞭炖山药香菇 尿酸高可以吃羊鞭吗 人参到底怎么吃?不同人吃不同参,不要吃错了 金盏菊 康仙花 千日红 黑枸杞 红枣 金边玫瑰 这几种怀孕能喝吗 心如擂鼓是什么意思,要标准的词语解释! 我心跳的好快用古文怎么说? 向下迁就 ios15.6rc玩游戏会掉帧吗 ios15.7.3rc和ios15.6rc哪个更好 三星电冰箱 RS542NCAEWW和RSA3SCSW一样吗?