深度学习入门笔记-08尝试炼丹-softmax回归
发布网友
发布时间:2024-10-20 15:25
我来回答
共1个回答
热心网友
时间:2024-10-30 06:59
经过深度学习的探索,我们在2月16日花费了一整天时间,集中研究softmax回归这一核心概念。这一理论在实践中显得有些复杂,特别是李沐的代码利用矩阵计算和Python精炼的编写方式,对于初学者来说,理解起来可能有难度。遇到不熟悉的部分,建议逐行分析代码的运行过程,后续会补充更多细节。
一篇回答给出了很好的实践指导,softmax回归是深度学习基石之一。现在,我们将从零开始,动手实现这一模型。我们选择FashionMNIST数据集,每个样本都是28x28的图像,可以视为784维向量。模型表达式是Y = X·W + b,其中X是输入,W是权重矩阵,b是偏置,Y是输出。因为有10个类别,输出维度为10,输入是1x784,所以W为784x10矩阵,b为1x10向量。
在实现中,我们将数据展平为批量大小为256的256x784矩阵,然后通过torch.matmul与W相乘,加上b,最后进行softmax操作。损失函数的定义涉及对预测概率的计算,例如,通过花式索引的方式,我们计算预测为正确类别的概率。
训练部分,通过小批量随机梯度下降优化模型,使用0.1的学习率。在分类预测阶段,我们针对10个图片进行测试,结果显示预测准确率相当高,接近0.8。至于softmax的简洁实现,利用了PyTorch高级API,优化了代码并提高了算法的精度,这部分内容将在后续分享。