逻辑斯谛回归与最大熵模型

发布网友发布时间：2024-09-26 17:43

共1个回答

热心网友时间：2024-10-30 20:17

一、逻辑斯谛回归模型

1.逻辑斯谛分布

设X是连续随机变量，X服从逻辑斯谛分布是指X具有以下分布函数和概率密度

公式

公式

逻辑斯谛函数图像是一条S形曲线，曲线以点公式为中心对称

2.二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型，由条件概率公式表示，随机变量X取值为实数，随机变量Y的取值为1或者0，我们通过监督学习的方法来估计模型的参数

二项逻辑斯谛回归是如下的条件概率分布，w为权值向量，b为偏置

公式

公式

对于给定的输入实例，按照上式可以求得P(Y=1|x)和P(Y=0|x)，逻辑斯谛回归比较两个条件概率值的大小，将实例x 分到概率值较大的那一类

一个事件发生的几率是指该事件发生的概率和该时间不发生的概率的比值，如果事件发生的概率是p，那么该事件的几率是公式，那么该事件的对数几率是公式，那么该事件的对数几率是公式

对于逻辑斯谛回归而言，由上式得公式，公式

也就是说在逻辑斯谛回归模型中，输出Y=1的对数几率是输入x的线性函数，或者说输出Y=1 的对数几率是由输入x 的线性函数表示的模型，即逻辑斯谛回归模型。

换一个角度看，对输入x 进行分类的线性函数是公式，其值域为实数域，通过逻辑斯谛回归模型可以将线性函数转换为概率

公式

在这里

线性函数的值越接近无穷，概率值就越接近1

线性函数的值越接近负无穷，概率值就越接近0

这样的模型就是逻辑斯谛回归模型

3.模型参数估计

逻辑斯蒂回归模型学习时，对于给定的训练数据集公式，可以应用最大似然估计来估计模型参数，从而得到逻辑斯蒂回归模型。

设公式，则似然函数为公式，对数似然函数公式，公式，公式，公式，对L(w)求最大值，得到w的估计值，这样问题就变成了，以对数函数为目标函数的优化问题，逻辑斯蒂回归模型中通常采用的方法就是梯度下降法和拟牛顿法

假设公式，那么学到的逻辑斯蒂回归模型为公式，公式

4.多项逻辑斯蒂回归模型

上式介绍的逻辑斯蒂回归模型是二项分类模型，用于二类分类，可以将其推广为多项逻辑斯蒂回归模型，用于多分类模型

假设离散型随机变量Y的取值集合为{1,2,3,4...K}，那么多项逻辑斯蒂回归模型为公式，公式，二项逻辑斯蒂回归模型的参数方法也可以推广到多项逻辑斯蒂回归模型。

二、最大熵模型

1.最大熵原理

最大熵原理的意思是学习概率模型的时候，在所有可能的模型分布中，熵最大的模型是最好的模型，通常用约束条件来确定概率模型的集合，所以最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型

假设离散随机变量X的概率分布是P(x)，那么他的熵是公式，熵满足下列不等式公式，|X|是X的取值的个数，当且仅当X的分布是均匀分布的时候右边的等号成立，也就是说X服从均匀分布的时候熵最大

“为啥啊”

2.最大熵模型的定义

最大熵原理是统计学习的一般原理，将他应用到分类得到最大熵模型

假设分类模型是一个条件概率分布P(Y|X)，表示给定的输入X以条件概率的形式P(Y|X)输出Y

给定一个训练集，公式，学习的目标是用最大熵原理选择最好的分类模型

首先应该考虑模型满足的条件，给定训练数据集，可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布如下

公式，公式，其中公式表示训练数据中样本（x,y）出现的频数，公式表示训练数据输入x出现的频数，N表示训练样本容量。

用特征函数f(x,y)描述输入x 和输出y之间的某一个事实，他的定义为当x和y满足这个事实的时候取值为1，否则取值为0

特征函数f(x,y)关于经验分布公式的经验值，用公式表示

公式

特征函数f(x,y)关于模型 P(Y|X)与经验分布公式的经验值，用公式表示

公式

如果模型能够获得训练数据的信息，那么就可以假设这两个期望值相等

“为啥啊”

我们将上式作为模型学习的约束条件

假如有n个特征函数公式，那么就会有n个约束条件

假设满足所有约束条件的模型集合为公式

定义在条件概率分布的P(Y|X)上的条件熵为公式，则模型集合C中条件熵H(P)最大的模型称为最大熵模型，式子中的对数为自然对数

3.最大熵模型的学习

最大熵模型学习的过程就是求解最大熵模型的过程，最大熵模型的学习过程可以形式化为约束最优化问题

对于给定的训练数集公式，以及特征函数公式，最大熵模型的学习等价于约束最优化问题公式，公式，上式等价于公式，公式，求解最优化的问题所得出的解，就是最大熵模型学习的解，下面给出具体推导

首先引入拉格朗日乘子公式，定义拉格朗日函数L(P,w)

公式

最优化的的原始问题

对偶问题

由于拉格朗日函数是个P的凸函数，原始问题的解与对偶问题的解是等价的

因此可以求解对偶问题来求解原始问题

设对偶函数公式，将其解记为公式

具体的求L(P,w)对P(y|x)的偏导数

公式，公式，令偏导数为0，解得公式，公式，由于公式，得公式，其中//这个地方没懂

公式，公式称为规范化因子

公式是特征函数

公式是特征的权值

上式表示的模型公式是最大熵模型

之后求解对数函数的极大化即可

4.极大似然估计

有3可以知道最大熵模型是条件概率分布，下面证明对对偶函数的极大化等价于最大熵模型的极大似然估计

已知训练数据的经验概率分布是公式，条件概率分布公式的对数似然估计函数表示为//为啥 -- 公式 [公式] ，当条件概率分布P(y|x) 是最大熵模型的时候，对数似然函数为公式 [公式] [公式] ，再看对偶函数公式 [公式] [公式] [公式] ，比较上下两个式子发现是相等的

于是证明了最大熵模型中对偶函数的极大化等价于最大熵模型中极大似然估计

这样最大熵模型中的学习问题转换为求解对数似然函数极大化或者对偶函数极大化的问题

三、模型学习的最优化算法

1.改进的迭代尺度法（IIS）

2.拟牛顿法

四、FAQ