读书笔记Llama 2: Open Foundation and Fine-Tuned Chat Models_百度知...
发布网友
发布时间:2024-08-18 14:11
我来回答
共1个回答
热心网友
时间:2024-08-22 11:24
Meta AI的LLAMA 2模型作为大模型开源领域的一座里程碑,其论文深入探讨了7B、13B、70B模型在可用性和安全性方面的表现,同时接受了人工和GPT-4的双重评估。LLAMA 2在架构和上下文长度方面较前代有所提升,训练过程采用预训练SFT与强化学习RLHF相结合,使用2T级别的令牌,相较于LLAMA 1,训练细节更加精心打磨。
在模型优化方面,LLAMA 2采用了学习率2e-5、权重衰减0.1以及64的批次大小,确保了4096长度的上下文理解。在RLHF阶段,LLAMA 2通过与OpenAI Self Instruct模型的对比,创新地采用了离散margin函数,实现了更佳的效果。数据混合策略巧妙地融合新旧数据,保持开源偏好,以增强泛化性和防止奖励欺骗,混合比例经过精心调优。
对于1个epoch的训练,70B模型的学习率经历了从5e-6到1e-5的调整,并采用了余弦调度。LLAMA 2的扩展趋势显示出随着模型和数据规模的提升,性能不断提升,但仍有优化空间。在奖励模型结果分析中,两种迭代微调方法——PPO和Rejection Sampling,各自展示了独特的深度和广度优势。
Rejection Sampling通过从每个迭代模型中采样K个输出,使用奖励函数选择最佳,这种方法在早期迭代中受限于上一阶段的样本,但后期改进后性能显著提升。而PPO则是以OpenAI的InstructGPT方法为基础,专注于安全性和帮助性的奖励函数,通过过滤阈值进行优化。
训练过程中,LLAMA 2采用FSDP技术加速训练,但牺牲了生成速度。为解决系统一致性问题,引入了Ghost Attention(GAtt)技术,通过合成数据和Rejection Sampling进行finetune,确保对话控制的精准。最终的评估依赖于人工评价和奖励模型,两者都显示出与人类偏好的良好一致性。RLHF不仅提高了协同人类注解的效率,还通过奖励机制调整了不良输出,引导模型探索更丰富的写作路径。
值得注意的是,人类的评价能力在LLM的写作质量上起到了关键作用,RLHF训练方法的引入可能重塑了监督数据的影响力。LLM在处理时间感知、创造力和事实提示时展现出独特的处理方式,且在无序数据训练中仍能理解时间顺序。OpenAI插件的讨论也显示出模型在无标注环境下自发形成工具使用能力的潜力。