机器学习2 -- 优化器(SGD、SGDM、Adagrad、RMSProp、Adam)
发布网友
发布时间:2024-10-06 06:04
我来回答
共1个回答
热心网友
时间:2024-10-22 04:03
腾讯T11算法研究员,中国科学院大学硕士,拥有丰富搜索和推荐算法经验,发表过15个专利,其中6个已授权。让我们深入了解五种主要的优化器:
1. 主要优化器
1.1 SGD
SGD,随机梯度下降,1847年提出,通过小批量更新解决随机性问题,但存在自适应学习率和易卡点问题。
1.2 SGDM (SGD with momentum)
1986年提出,加入动量机制,改善了参数更新趋势,避免卡点,但学习率选择关键。
1.3 Adagrad
2011年,自适应学习率,开始大,后期减小,解决收敛速度问题,但考虑不足导致学习率固定。
1.4 RMSProp
2013年,修正了Adagrad问题,加入迭代衰减,考虑了近似梯度的影响。
1.5 Adam
2015年,结合SGDM和RMSProp,解决多种问题,是常用选择。
2. 优化器选择
SGDM在CV领域常见,Adam在NLP、RL等领域广泛。根据任务选择相应优化器。
3. 优化器对比实验
实验显示,不同优化器在特定任务上的表现各异。
4. 优化器改进与扩展
SWATS, AMSGrad, AdaBound, Cyclical LR, SGDR等提供了不同策略和*。
5. 总结与资源
了解SGDM和Adam两大阵营的优化器,更多详情请参考作者新书或相关社区。
作者新书推荐:详情见作者知乎主页和公众号