贝叶斯估计、最大似然估计、最大后验概率估计

发布网友发布时间：2022-09-14 06:30

我来回答

共1个回答

热心网友时间：2023-10-23 14:43

贝叶斯估计、最大似然估计(MLE)、最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到，读文章的时候还感觉挺明白，但独立思考时经常会傻傻分不清楚(😭)，因此希望通过本文对其进行总结。

注：由于概率与数理统计需要了解的背景知识很多，因此这里只列出了部分内容，且写的较简略，许多概念的学习需要根据标题自己查找答案。

概率统计是很多人都学过的内容，但概率论与统计学的关系是什么？先看一下概率论与统计学在维基百科中的定义：

下面的一段话引自LarrB Wasserman的《All of Statistics》，对概率和统计推断的研究内容进行了描述：

概率论是在给定条件（已知模型和参数）下，对要发生的事件（新输入数据）的预测。统计推断是在给定数据（训练数据）下，对数据生成方式（模型和参数）的归纳总结。概率论是统计学的数学基础，统计学是对概率论的应用。

统计学分为描述统计学和推断统计学。描述统计，是统计学中描绘或总结观察量基本情况的统计总称。推断统计指统计学中研究如何根据样本数据去推断总体数量特征的方法。

描述统计是对数据的一种概括。描述统计是罗列所有数据，然后选择一些特征量（例如均值、方差、中位数、四分中位数等）对总体数据进行描述。推断统计是一种对数据的推测。推断统计无法获取所有数据，只能得到部分数据，然后根据得到的数据推测总体数据的情况。

假设有随机变量和，此时用于表示且同时发生的概率。这类包含多个条件且所有条件同时成立的概率称为联合概率。请注意，联合概率并不是其中某个条件成立的概率，而是所有条件同时成立的概率。与之对应地，或这类仅与单个随机变量有关的概率称为边缘概率。

联合概率与边缘概率的关系如下：

条件概率表示在条件成立的情况下，的概率，记作，或者说条件概率是指事件在另外一个事件已经发生条件下的发生概率。为了简洁表示，后面省略a，b。

联合概率、边缘概率、条件概率的关系如下：

转换为乘法形式：

如果事件构成一个完备事件组，即它们两两互不相容（互斥），其和为全集；并且大于0，则对任意事件有上面的公式称为全概率公式。全概率公式是对复杂事件的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。

由条件概率的乘法形式可得：

上面的式子称为贝叶斯公式，也叫做贝叶斯定理或贝叶斯法则。在贝叶斯定理中，每个名词都有约定俗成的名称：

因此贝叶斯公式可表示为：后验概率=似然函数先验概率/标准化常量=标准似然比先验概率。根据标准似然比的大小，可分为下面三种情况：

由全概率公式、贝叶斯法则可得：

在英文中，似然（likelihood）和概率（probability）是同义词，都指事件发生的可能性。但在统计中，似然与概率是不同的东西。概率是已知参数，对结果可能性的预测。似然是已知结果，对参数是某个值的可能性预测。

对于函数，从不同的观测角度来看可以分为以下两种情况：

注：注意似然函数的不同写法。

样本、样本容量、参数统计、非参数统计、估计量、真实分布、经验分布。

注：频率学派与贝叶斯学派只是解决问题的角度不同。

频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发，试图直接为「事件」本身建模，即事件在独立重复试验中发生的频率趋于极限，那么这个极限就是该事件的概率。

贝叶斯学派并不从试图刻画「事件」本身，而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」，或者「世界的本体带有某种随机性」，这套理论根本不言说关于「世界本体」的东西，而只是从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。

频率学派的代表是最大似然估计；贝叶斯学派的代表是最大后验概率估计。

在贝叶斯统计中，如果后验分布与先验分布属于同类，则先验分布与后验分布被称为共轭分布，而先验分布被称为似然函数的共轭先验。

在概率论中，Beta分布也称Β分布，是指一组定义在区间的连续概率分布，有两个参数。Beta分布的概率密度为：

其中，是函数。随机变量服从Beta分布写作。

以抛硬币为例，假设我们有一枚硬币，现在要估计其正面朝上的概率。为了对进行估计，我们进行了10次实验（独立同分布，i.i.d.），这组实验记为，其中正面朝上的次数为6次，反面朝上的次数为4次，结果为。

最大似然估计，英文为Maximum Likelihood Estimation，简写为MLE，也叫极大似然估计，是用来估计概率模型参数的一种方法。最大似然估计的思想是使得观测数据（样本）发生概率最大的参数就是最好的参数。

对一个独立同分布的样本集来说，总体的似然就是每个样本似然的乘积。针对抛硬币的问题，似然函数可写作：根据最大似然估计，使取得最大值的即为估计结果，令可得。似然函数图如下：

由于总体的似然就是每个样本似然的乘积，为了求解方便，我们通常会将似然函数转成对数似然函数，然后再求解。可以转成对数似然函数的主要原因是对数函数并不影响函数的凹凸性。因此上式可变为：令可得。

正态分布的最大似然估计

假设样本服从正态分布，则其似然函数为对其取对数得：
分别对求偏导，并令偏导数为0，得：

解得：

就是正态分布中的最大似然估计。

最大似然估计的求解步骤：

最大后验概率估计，英文为Maximum A Posteriori Estimation，简写为MAP。回到抛硬币的问题，最大似然估计认为使似然函数最大的参数即为最好的，此时最大似然估计是将看作固定的值，只是其值未知；最大后验概率分布认为是一个随机变量，即具有某种概率分布，称为先验分布，求解时除了要考虑似然函数之外，还要考虑的先验分布，因此其认为使取最大值的就是最好的。此时要最大化的函数变为，由于的先验分布是固定的（可通过分析数据获得，其实我们也不关心的分布，我们关心的是），因此最大化函数可变为，根据贝叶斯法则，要最大化的函数，因此要最大化的函数是，而是的后验概率。最大后验概率估计可以看作是正则化的最大似然估计，当然机器学习或深度学习中的正则项通常是加法，而在最大后验概率估计中采用的是乘法，是正则项。在最大似然估计中，由于认为是固定的，因此。

最大后验概率估计的公式表示：

在抛硬币的例子中，通常认为的可能性最大，因此我们用均值为，方差为的高斯分布来描述的先验分布，当然也可以使用其它的分布来描述的先验分布。的先验分布为：先验分布的函数图如下：

在最大似然估计中，已知似然函数为，因此：转换为对数函数：

令，可得：由于，解得：。的函数图像如下，基本符合的估计值：

如果我们用均值为，方差为的高斯分布来描述的先验分布，则。由此可见，在最大后验概率估计中，的估计值与的先验分布有很大的关系。这也说明一个合理的先验概率假设是非常重要的。如果先验分布假设错误，则会导致估计的参数值偏离实际的参数值。

先验分布为Beta分布

如果用的Beta分布来描述的先验分布，则令求解可得：

的概率密度图像如下图：

最大后验概率估计的求解步骤：

贝叶斯估计是最大后验估计的进一步扩展，贝叶斯估计同样假定是一个随机变量，但贝叶斯估计并不是直接估计出的某个特定值，而是估计的分布，这是贝叶斯估计与最大后验概率估计不同的地方。在贝叶斯估计中，先验分布是不可忽略的。回到抛硬币的例子中，在已知的情况下，描述的分布即描述，是一种后验分布。如果后验分布的范围较窄，则估计值的准确度相对较高，反之，如果后验分布的范围较广，则估计值的准确度就较低。

贝叶斯公式：

在连续型随机变量中，由于，因此贝叶斯公式变为：

从上面的公式中可以看出，贝叶斯估计的求解非常复杂，因此选择合适的先验分布就非常重要。一般来说，计算积分是不可能的。对于这个抛硬币的例子来说，如果使用共轭先验分布，就可以更好的解决这个问题。二项分布参数的共轭先验是Beta分布，由于的似然函数服从二项分布，因此在贝叶斯估计中，假设的先验分布服从，Beta分布的概率密度公式为：因此，贝叶斯公式可写作：从上面的公式可以看出，。其中函数，也称函数，是一个标准化常量，用来使整个概率的积分为1。就是贝叶斯估计的结果。

如果使用贝叶斯估计得到的分布存在一个有限均值，则可以用后验分布的期望作为的估计值。假设，在这种情况下，先验分布会在处取得最大值，则，的曲线如下图：

从上图可以看出，在的情况下，的估计值应该在附近。根据Beta分布的数学期望公式可得：

注：二项分布参数的共轭先验是Beta分布，多项式分布参数的共轭先验是Dirichlet分布，指数分布参数的共轭先验是Gamma分布，⾼斯分布均值的共轭先验是另⼀个⾼斯分布，泊松分布的共轭先验是Gamma分布。

贝叶斯估计要解决的不是如何估计参数，而是用来估计新测量数据出现的概率，对于新出现的数据：

贝叶斯估计的求解步骤：

从最大似然估计、最大后验概率估计到贝叶斯估计，从下表可以看出的估计值是逐渐接近的。从公式的变化可以看出，使用的信息是逐渐增多的。最大似然估计、最大后验概率估计中都是假设未知，但是确定的值，都将使函数取得最大值的作为估计值，区别在于最大化的函数不同，最大后验概率估计使用了的先验概率。而在贝叶斯估计中，假设参数是未知的随机变量，不是确定值，求解的是参数在样本上的后验分布。

注：最大后验概率估计和贝叶斯估计都采用Beta分布作为先验分布。

贝叶斯估计、最大似然估计、最大后验概率估计

频率学派的代表是最大似然估计;贝叶斯学派的代表是最大后验概率估计。在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。在概率论中,Beta分布也称Β分布,是指一组定义在区间的连续概率分布,有两个参数。Beta分布的概率密度为: 其中, ...

最大似然估计,最大后验估计以及贝叶斯估计的理解整理

贝叶斯估计则超越了直接的值估计，它以概率的形式揭示了所有可能的解释。预测时，它关注的是特定值出现的概率，而非单一的估计值。总结来说，最大似然估计和最大后验估计是参数估计的两种策略，前者直观、后者深思熟虑；而贝叶斯估计则将先验知识融入其中，为统计推理添加了更多维度。它们共同构成了理解模型...

最大似然估计量和贝叶斯估计量有何区别?

首先，最大似然估计量是一种基于样本数据的参数估计方法，它通过最大化似然函数来估计参数的值。而贝叶斯估计量则是一种基于先验概率和后验概率的参数估计方法，它通过计算后验概率密度函数的最大值来估计参数的值。其次，最大似然估计量只考虑了样本数据对参数的影响，而忽略了先验信息。因此，在实际应用...

极大似然估计、最大后验估计

无论是mle还是map都属于点估计，即我们最终得到的估计参数都是一个固定的值。而在贝叶斯估计中，假设参数θ是未知的随机变量，不是确定值，以逻辑回归为例，我们不会像使用极大似然估计或者最大后验估计直接得到w1，w2。。。wn的权重的具体的值而是得到一个关于w（n维）的后验分布。简单描述一下贝叶斯...

最大似然概率和后验概率的区别

最大后验概率是贝叶斯学派的一种近似手段，因为完全贝叶斯估计不一定可行。另一方面，最大后验概率可以看作是对先验和MLE的一种折衷，如果数据量足够大，最大后验概率和最大似然估计趋向于一致，如果数据为0,最大后验仅由先验决定。本文假设大家都知道什么叫条件概率了（P(A|B)表示在B事件发生的情况...

参数估计的三种方法

贝叶斯估计是一种基于贝叶斯定理的方法，它考虑一个先验分布和观测数据之间的关系，以此计算出一个后验分布，并以后验分布作为参数估计的依据。与最大似然估计和最小二乘估计不同，贝叶斯估计会引入先验分布，这意味着我们需要对参数的可能值进行一定的主观估测。参数估计的数值通常是近似值，而不是绝对...

常用的参数估计

在最大后验估计（MAP）中，将θ看成一个随机变量，并在已知样本集{x1,x2,...,xN}的条件下，估计参数θ。贝叶斯估计和MAP挺像的，都是以最大化后验概率为目的。区别在于：1）极大似然估计和MAP都是只返回了的预估值。2） MAP在计算后验概率的时候，把分母p(X)给忽略了，在进行贝叶斯...

先验概率、后验概率、贝叶斯公式、似然函数

后验概率可以通过贝叶斯公式求解。最大后验概率(MAP):最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同是,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看作规则化的最大似然估计。 3、贝叶斯公式贝叶斯公式,用来描述两个条件概率(后验概率)...

贝叶斯分类器(1)贝叶斯决策论概述、贝叶斯和频率、概率和似然

对于求分布的参数,一般使用最大似然估计MLE,虽然MLE是频率学派的估计方法,不过好用的东西大家一起用嘛,贝叶斯学派有个差不多的估计方法:最大后验估计MAP,不过MAP比MLE多了个作为因子的先验概率P(θ),更复杂一些,这些内容咱们下回再讲。说回最大似然估计,说到最大似然估计就不得不问一句,什么是似然?这里需要...

如何确定先验概率分布的参数?

3.贝叶斯方法：贝叶斯方法是一种基于概率论的方法，它通过结合先验概率和后验概率来更新我们对某个事件的信念。在贝叶斯方法中，先验概率分布的参数可以通过主观或客观的方式来确定。4.最大似然估计法：最大似然估计法是一种常用的参数估计方法，它通过最大化似然函数来估计参数的值。在确定先验概率分布的...

最大似然估计与极大似然估计极大似然估计和贝叶斯估计极大似然估计和贝叶斯估计的区别似然估计和最大似然估计最大似然估计与贝叶斯区别朴素贝叶斯极大似然估计用极大似然估计法推出贝叶斯最大似然估计马尔可夫估计概率的极大似然估计