问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

逻辑斯谛回归与最大熵模型

发布网友 发布时间:2024-09-26 17:43

我来回答

1个回答

热心网友 时间:2024-10-30 20:17

一、逻辑斯谛回归模型

1.逻辑斯谛分布

设X是连续随机变量,X服从逻辑斯谛分布是指X具有以下分布函数和概率密度

公式

公式

逻辑斯谛函数图像是一条S形曲线,曲线以点公式为中心对称

2.二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型,由条件概率公式表示,随机变量X取值为实数,随机变量Y的取值为1或者0,我们通过监督学习的方法来估计模型的参数

二项逻辑斯谛回归是如下的条件概率分布,w为权值向量,b为偏置

公式

公式

对于给定的输入实例,按照上式可以求得P(Y=1|x)和P(Y=0|x),逻辑斯谛回归比较两个条件概率值的大小,将实例x 分到概率值较大的那一类

一个事件发生的几率是指该事件发生的概率和该时间不发生的概率的比值,如果事件发生的概率是p,那么该事件的几率是公式,那么该事件的对数几率是公式,那么该事件的对数几率是公式

对于逻辑斯谛回归而言,由上式得公式,公式

也就是说在逻辑斯谛回归模型中,输出Y=1的对数几率是输入x的线性函数,或者说输出Y=1 的对数几率是由输入x 的线性函数表示的模型,即逻辑斯谛回归模型。

换一个角度看,对输入x 进行分类的线性函数是公式,其值域为实数域,通过逻辑斯谛回归模型可以将线性函数转换为概率

公式

在这里

线性函数的值越接近无穷,概率值就越接近1

线性函数的值越接近负无穷,概率值就越接近0

这样的模型就是逻辑斯谛回归模型

3.模型参数估计

逻辑斯蒂回归模型学习时,对于给定的训练数据集公式,可以应用最大似然估计来估计模型参数,从而得到逻辑斯蒂回归模型。

设公式,则似然函数为公式,对数似然函数公式,公式,公式,公式,对L(w)求最大值,得到w的估计值,这样问题就变成了,以对数函数为目标函数的优化问题,逻辑斯蒂回归模型中通常采用的方法就是梯度下降法和拟牛顿法

假设公式,那么学到的逻辑斯蒂回归模型为公式,公式

4.多项逻辑斯蒂回归模型

上式介绍的逻辑斯蒂回归模型是二项分类模型,用于二类分类,可以将其推广为多项逻辑斯蒂回归模型,用于多分类模型

假设离散型随机变量Y的取值集合为{1,2,3,4...K},那么多项逻辑斯蒂回归模型为公式,公式,二项逻辑斯蒂回归模型的参数方法也可以推广到多项逻辑斯蒂回归模型。

二、最大熵模型

1.最大熵原理

最大熵原理的意思是学习概率模型的时候,在所有可能的模型分布中,熵最大的模型是最好的模型,通常用约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型

假设离散随机变量X的概率分布是P(x),那么他的熵是公式,熵满足下列不等式公式,|X|是X的取值的个数,当且仅当X的分布是均匀分布的时候右边的等号成立,也就是说X服从均匀分布的时候熵最大

“为啥啊”

2.最大熵模型的定义

最大熵原理是统计学习的一般原理,将他应用到分类得到最大熵模型

假设分类模型是一个条件概率分布P(Y|X),表示给定的输入X以条件概率的形式P(Y|X)输出Y

给定一个训练集,公式,学习的目标是用最大熵原理选择最好的分类模型

首先应该考虑模型满足的条件,给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布如下

公式,公式,其中公式表示训练数据中样本(x,y)出现的频数,公式表示训练数据输入x出现的频数,N表示训练样本容量。

用特征函数f(x,y)描述输入x 和输出y之间的某一个事实,他的定义为当x和y满足这个事实的时候取值为1,否则取值为0

特征函数f(x,y)关于经验分布公式的经验值,用公式表示

公式

特征函数f(x,y)关于模型 P(Y|X)与经验分布公式的经验值,用公式表示

公式

如果模型能够获得训练数据的信息,那么就可以假设这两个期望值相等

“为啥啊”

我们将上式作为模型学习的约束条件

假如有n个特征函数公式,那么就会有n个约束条件

假设满足所有约束条件的模型集合为公式

定义在条件概率分布的P(Y|X)上的条件熵为公式,则模型集合C中条件熵H(P)最大的模型称为最大熵模型,式子中的对数为自然对数

3.最大熵模型的学习

最大熵模型学习的过程就是求解最大熵模型的过程,最大熵模型的学习过程可以形式化为约束最优化问题

对于给定的训练数集公式,以及特征函数公式,最大熵模型的学习等价于约束最优化问题公式,公式,上式等价于公式,公式,求解最优化的问题所得出的解,就是最大熵模型学习的解,下面给出具体推导

首先引入拉格朗日乘子公式,定义拉格朗日函数L(P,w)

公式

最优化的的原始问题

对偶问题

由于拉格朗日函数是个P的凸函数,原始问题的解与对偶问题的解 是等价的

因此可以求解对偶问题来求解原始问题

设对偶函数公式,将其解记为公式

具体的求L(P,w)对P(y|x)的偏导数

公式,公式,令偏导数为0,解得公式,公式,由于公式,得公式,其中//这个地方没懂

公式,公式称为规范化因子

公式是特征函数

公式是特征的权值

上式表示的模型公式是最大熵模型

之后求解对数函数的极大化即可

4.极大似然估计

有3可以知道最大熵模型是条件概率分布,下面证明对对偶函数的极大化等价于最大熵模型的极大似然估计

已知训练数据的经验概率分布是公式,条件概率分布公式 的对数似然估计函数表示为//为啥 -- 公式 [公式] ,当条件概率分布P(y|x) 是最大熵模型的时候,对数似然函数为公式 [公式] [公式] ,再看对偶函数公式 [公式] [公式] [公式] ,比较上下两个式子发现是相等的

于是证明了最大熵模型中对偶函数的极大化等价于最大熵模型中极大似然估计

这样最大熵模型中的学习问题转换为求解对数似然函数极大化或者对偶函数极大化的问题

三、模型学习的最优化算法

1.改进的迭代尺度法(IIS)

2.拟牛顿法

四、FAQ
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
现在波兰的签证率高不高 去波兰如何办签证 去波兰办签证好办理吗 波兰签证好签吗 win7 多重网络 教师资格证普通话要多少级 想考教师资格证普通话必须过几级 qq影视会员SVIP和超级影视VIP的区别在哪里? 一小撮怎么造句 盛行一时怎么造句 经常吃枸杞子,有什么好处?会伤害胃吗? 做了让老公蒙羞的事,对不起老公 没脸见老公 怎么办? 北京怀柔鹅和鸭山庄自驾车路线 小行星带是太阳系内的一个小行最密集区域,聚集了大的50万颗以上的小行 ... 索尼黑卡RX100M6的光圈范围是多少? 什么卡跨行不要手续费 银联卡跨行atm取款要手续费吗 如何使用银联服务避免跨行取款手续费? 兴宁一中2022年在田佳炳中学招生有多少人 梅州兴宁是否有住户调查补贴发放 21.5寸的显示屏玩英雄联盟用多少的分辨率最好?分辨率的高低会影响你的... 五年制大专与普通大专有什么区别? 应用程序错误msiexec。。。怎么办? 丙氨酸氨基转移酶偏高说明什么 电脑总是嘟的一声是怎么回事? 为什么电脑鼠标动不了? 东莞大理石返潮期怎么护理? 安阳什么好吃 烧灌肠烧灌肠 大理石返潮长时间不干会怎么样 wrzx6是什么牌子 电脑突然黑屏了主机还在运行电脑突然黑屏但是主机还运行怎么办 电脑显示屏关机了,为啥主机还在运行? wrzx6耳机是什么品牌 阴阳师夜叉嗜血皮肤多少钱 夜叉嗜血皮肤获取攻略-手游资讯-安族网... 阴阳师夜叉嗜血皮肤多少钱介绍_阴阳师夜叉嗜血皮肤多少钱是什么_百度... 阴阳师嗜血皮肤多少钱? 夜叉皮肤嗜血介绍-新手攻略-安族网 阴阳师新式神夜叉怎么获得介绍_阴阳师新式神夜叉怎么获得是什么 阴阳师手游夜叉怎么得 阴阳师手游夜叉怎么样介绍_阴阳师手游夜叉怎么... 阴阳师夜叉怎么获得-夜叉获得方法 服装厂的职位是什么? 3dmax安装后打开黑屏是怎么回事? 成都大运会口号、会徽、吉祥物正式亮相 成都大运会吉祥物“蓉宝”如何融入了多种文化元素? 床上潮湿有什么妙招解决 最近想入手宏基5820TG(484G64Mnss),但还是不放心,希望高手帮忙再推荐... 求求各位哥哥姐姐弟弟妹妹们介绍几款5000-6000的本本 谢谢拉 专业人士帮忙介绍台5000-6500的游戏影音笔记本,平常大部分时间用来玩大... 2016年工作失误怎么写入总结 配置好的笔记本电脑 5000-6000左右 推荐好点的 学生用 比较爱玩游戏...