最大似然概率和后验概率的区别
发布网友
发布时间:2022-04-22 00:01
我来回答
共1个回答
热心网友
时间:2024-06-02 22:52
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:
D表示训练数据集,是模型参数
相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值,如下所示:
其中x表示输入,y表示输出,D表示训练数据集,是模型参数
该公式称为全贝叶斯预测。现在的问题是如何求(后验概率),根据贝叶斯公式我们有:
可惜的是,上面的后验概率通常是很难计算的,因为要对所有的参数进行积分,不能找到一个典型的闭合解(解析解)。在这种情况下,我们采用了一种近似的方法求后验概率,这就是最大后验概率。
最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。
从以上可以看出,一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。
本文假设大家都知道什么叫条件概率了(P(A|B)表示在B事件发生的情况下,A事件发生的概率)。
先验概率和后验概率
教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。
假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。
堵车的概率就是先验概率 。
那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率 。也就是P(堵车|交通事故)。这是有因求果。
如果我们已经出了门,然后遇到了堵车,那么我们想算一下堵车时由交通事故引起的概率有多大,
那这个就叫做后验概率 (也是条件概率,但是通常习惯这么说)。也就是P(交通事故|堵车)。这是有果求因。
下面的定义摘自百度百科:
先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现.
后验概率是指依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因".
那么这两个概念有什么用呢?
最大似然估计
我们来看一个例子。
有一天,有个病人到医院看病。他告诉医生说自己头痛,然后医生根据自己的经验判断出他是感冒了,然后给他开了些药回去吃。
有人肯定要问了,这个例子看起来跟我们要讲的最大似然估计有啥关系啊。
关系可大了,事实上医生在不知不觉中就用到了最大似然估计(虽然有点牵强,但大家就勉为其难地接受吧^_^)。
怎么说呢?
大家知道,头痛的原因有很多种啊,比如感冒,中风,脑溢血...(脑残>_<这个我可不知道会不会头痛,还有那些看到难题就头痛的病人也不在讨论范围啊!)。
那么医生凭什么说那个病人就是感冒呢?哦,医生说这是我从医多年的经验啊。
咱们从概率的角度来研究一下这个问题。
其实医生的大脑是这么工作的,
他计算了一下
P(感冒|头痛)(头痛由感冒引起的概率,下面类似)
P(中风|头痛)
P(脑溢血|头痛)
...
然后这个计算机大脑发现,P(感冒|头痛)是最大的,因此就认为呢,病人是感冒了。看到了吗?这个就叫最大似然估计(Maximum likelihood estimation,MLE) 。
咱们再思考一下,P(感冒|头痛),P(中风|头痛),P(脑溢血|头痛)是先验概率还是后验概率呢?
没错,就是后验概率。看到了吧,后验概率可以用来看病(只要你算得出来,呵呵)。
事实上,后验概率起了这样一个用途,根据一些发生的事实(通常是坏的结果),分析结果产生的最可能的原因,然后才能有针对性地去解决问题。
那么先验概率有啥用呢?
我们来思考一下,P(脑残|头痛)是怎么算的。
P(脑残|头痛)=头痛的人中脑残的人数/头痛的人数
头痛的样本倒好找,但是头痛的人中脑残的人数就不好调查了吧。如果你去问一个头痛的人你是不是脑残了,我估计那人会把你拍飞吧。
接下来先验概率就派上用场了。
根据贝叶斯公式 ,
P(B|A)=P(A|B)P(B)/P(A)
我们可以知道
P(脑残|头痛)=P(头痛|脑残)P(脑残)/P(头痛)
注意,(头痛|脑残)是先验概率,那么利用贝叶斯公式我们就可以利用先验概率把后验概率算出来了。
P(头痛|脑残)=脑残的人中头痛的人数/脑残的人数
这样只需要我们去问脑残的人你头痛吗,明显很安全了。
(你说脑残的人数怎么来的啊,那我们就假设我们手上有一份传说中的脑残名单吧。那份同学不要吵,我没说你在名单上啊。
再说调查脑残人数的话咱就没必要抓着一个头痛的人问了。起码问一个心情好的人是否脑残比问一个头痛的人安全得多)
我承认上面的例子很牵强,不过主要是为了表达一个意思。后验概率在实际中一般是很难直接计算出来的,相反先验概率就容易多了。因此一般会利用先验概率来计算后验概率。
似然函数与最大似然估计
下面给出似然函数跟最大似然估计的定义。
我们假设f是一个概率密度函数,那么
是一个条件概率密度函数(θ 是固定的)
而反过来,
叫做似然函数 (x是固定的)。
一般把似然函数写成
θ是因变量。
而最大似然估计 就是求在θ的定义域中,当似然函数取得最大值时θ的大小。
意思就是呢,当后验概率最大时θ的大小。也就是说要求最有可能的原因。
由于对数函数不会改变大小关系,有时候会将似然函数求一下对数,方便计算。
例子:
我们假设有三种硬币,他们扔到正面的概率分别是1/3,1/2,2/3。我们手上有一个硬币,但是我们并不知道这是哪一种。因此我们做了一下实验,我们扔了80次,有49次正面,31次背面。那么这个硬币最可能是哪种呢?我们动手来算一下。这里θ的定义域是{1/3,1/2,2/3}
最大似然概率和后验概率的区别
从以上可以看出,一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计...
极大似然估计、最大后验估计
最大后验估计和最大似然估计的区别在于,最大后验估计允许我们把先验知识加入到估计模型中,对于逻辑回归,在公式上的表达就是多了一个log P(theta)的项。通过调节先验分布的参数,我们可以调节把估计的结果“拉”向先验的幅度。无论是mle还是map都属于点估计,即我们最终得到的估计参数都是一个固定的...
贝叶斯估计、最大似然估计、最大后验概率估计
频率学派的代表是最大似然估计;贝叶斯学派的代表是最大后验概率估计。 在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。 在概率论中,Beta分布也称Β分布,是指一组定义在 区间的连续概率分布,有两个参数 。Beta分布的概率密度为: 其中, ...
期望后验估计与最大似然估计有什么不同点?
总之,期望后验估计和最大似然估计的主要区别在于它们的目标函数和计算过程。MLE试图找到最能解释观测数据的模型,而EPE试图找到最能解释观测数据的参数分布。在实际应用中,选择哪种方法取决于问题的具体背景和需求。
MAP最大后验概率与ML最大似然估计的关系与区别!
后验概率正比于似然度和先验概率的乘积 posterior \propto likelihood*prior 最大似然估计不考虑先验后验的问题,纯粹是选择一个参数能最大化模型似然度 最大后验概率是贝叶斯方法,引入参数的先验概率,结合似然度选择最佳参数或模型
先验概率、后验概率、贝叶斯公式、 似然函数
最大似然与最大后验:参数估计的战场最大似然估计和最大后验估计,是参数估计的两种策略。最大似然侧重于数据本身,寻找使观测数据最可能发生的参数;而最大后验则结合了先验信息,寻找既能产生给定数据又能符合先验假设的参数。总的来说,先验与后验,似然与贝叶斯,它们共同构成了概率理论的基石,为...
最大似然估计,最大后验估计以及贝叶斯估计的理解整理
最大后验估计:融合先验知识的力量 而最大后验估计则更进一步,它在似然的基础上,引入先验知识作为指导。例如,当我们知道一个硬币可能非均匀,B的0.7假设就比A的0.5更有说服力。MAP通过最大化后验概率 P(θ|x) * P(θ),平衡了似然与先验,犹如在统计游戏中加入了智慧的砝码。共轭性原则使得...
先验概率、后验概率、贝叶斯公式、 似然函数
最大后验概率(MAP):最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同是,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看作规则化的最大似然估计。 3、贝叶斯公式 贝叶斯公式,用来描述两个条件概率(后验概率)之间的关系,比如P(A|B)和P(B|...
参数估计的几种方法
MAP结合了MLE和贝叶斯的长处,它寻找的是后验概率最大的参数,但与贝叶斯不同,它并不提供完整的分布,而是给出单一的估计点。尽管MAP与MLE类似,但通过先验的介入,它在一定程度上缓解了过拟合问题。异同之间的对比 在方法选择上,先验知识的使用是MLE与贝叶斯/MAP之间的关键区别。MLE不依赖于先验,而...
概率论最基本术语及其含义
不同的是,最大化后验概率在求模型的“最优”参数之前就已经对他们有一个预先假设好的分布。而整套流程下来的输出不再像是最大似然那样的一个确定的值,而是一个关于参数θ的、由原来先验假设分布更新而来的新概率分布。随着数据被不断的代入不断的计算,参数θ的分布会越来越趋近于它的真实分布,...