问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

初学者笔记本电脑玩转大模型系列五:ORPO+QLora优化谷歌Gemma-7B模型...

发布网友 发布时间:2024-08-18 14:11

我来回答

1个回答

热心网友 时间:2024-08-29 08:58

之前分享了三篇《初学者笔记本电脑玩转大模型系列》,感兴趣可以访问如下文章:

求索:初学者笔记本电脑玩转大模型系列一:利用ollama跑大模型

求索:初学者笔记本电脑玩转大模型系列二:微调谷歌Gemma模型

求索:初学者笔记本电脑玩转大模型系列三:基于Huggingface微调谷歌Gemma模型

求索:初学者笔记本电脑玩转大模型系列四:ORPO优化谷歌Gemma模型

论文《ORPO: Monolithic Preference Optimization without Reference Model》提出了一种名为ORPO的方法,通过将SFT和对齐结合到一个新的目标(损失函数)中来训练基础大语言模型,从而免去了耗时耗力的SFT阶段。

如果对论文详细内容感兴趣,可以访问如下文章:

求索:ORPO:大模型无需微调,直接偏好优化,性能也杠杠的!

结合QLora、Flash Attention 2以及adamw_bnb_8bit的优化方法,成功完成了Gemma-7B的优化。接下来,我们将利用这篇论文的ORPO方法优化Gemma-7B,增强中文对话能力。

如果想直接阅读代码,请访问Github库:

keyonzeng/llm_tuning: large language model tuning examples (github.com)

笔记本电脑配置及环境

笔记本电脑配置:i9-13900HX/32GB,GPU 4090/16GB

主要使用的编程环境:Microsoft PyCharm/VSCode、Jupyter Notebook

操作系统:Windows 11

优化总体思路

针对Gemma-7B模型进行ORPO+QLora+Flash Attention 2优化,利用Huggingface的Transformers、Transformer Reinforcement Learning(TRL)、Parameter-Efficient Fine-Tuning框架、QLora以及TRL的ORPOTrainer对模型进行优化,性能指标监控使用wandb。使用的数据集是wenbopan/Chinese-dpo-pairs。

优化具体思路

下载文件列表如下:

运行了4个多小时,结果如下:

TrainOutput(global_step=670, training_loss=2.0626583168755714, metrics={'train_runtime': 15616.5652, 'train_samples_per_second': 0.687, 'train_steps_per_second': 0.043, 'total_flos': 0.0, 'train_loss': 2.0626583168755714, 'epoch': 1.0})

wandb性能监控如下:

是否效果有优化呢?你看着办哦!

本次利用ORPO来优化Gemma 7B增强中文能力大功告成,你也可以在自己的笔记本电脑或者个人电脑上实施。

代码: keyonzeng/llm_tuning: large language model tuning examples (github.com)
初学者笔记本电脑玩转大模型系列五:ORPO+QLora优化谷歌Gemma-7B模型...

令人惊讶的是,尽管Gemma-7B模型原本在笔记本上运行可能颇具挑战,但在QLora、Flash Attention 2和adamw_bnb_8bit优化策略的助力下,我们成功优化了模型。接下来,我们将在i9-13900HX/32GB的处理器和4090/16GB显卡的笔记本电脑上,配合Microsoft PyCharm/VSCode和Windows 11操作系统,使用Huggingface Transforme...

初学者笔记本电脑玩转大模型系列五:ORPO+QLora优化谷歌Gemma-7B模型...

针对Gemma-7B模型进行ORPO+QLora+Flash Attention 2优化,利用Huggingface的Transformers、Transformer Reinforcement Learning(TRL)、Parameter-Efficient Fine-Tuning框架、QLora以及TRL的ORPOTrainer对模型进行优化,性能指标监控使用wandb。使用的数据集是wenbopan/Chinese-dpo-pairs。优化具体思路 下载文件列表如...

笔记本电脑初学者 初学者熟悉笔记本电脑 初学者熟悉笔记本电脑键盘 笔记本电脑初学者入门教程 初学笔记本电脑键盘认识 笔记本电脑的初入门 新手怎么学笔记本电脑 笔记本电脑新手入门 入门笔记本电脑推荐
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
...并指出反应的类型.(1)电解水___;(2)红磷在氧气中燃烧__ 玩游戏老是跳出来 求 解决办法 金庸群侠传5一直跳出闪退怎么解决介绍_金庸群侠传5一直跳出闪退怎么解 ... 我一玩单机游戏就跳出到桌面,这是啥问题。。。 高手帮忙解决:电脑玩游戏老是跳出桌面。。 杭州有哪些推荐假期入住的宝藏度假酒店? 子衿主要思想内容 90后研究生坚守山区一人教6科,具体是什么情况? 苏明娟特殊名人 一桶菜油连桶重940克倒出油的一半后连桶重490克桶和油各重多少克 阜阳市十二中学垃圾吗 我是03年考下来的中级会计师证,在全国会计职称查询网上查询不到信息... 公司法人挪用公款25万元怎么处理 公司欠钱不还挪用怎么办 liam英文名的寓意是什么 内阁制的国家有哪些 埃莉维拉·萨希普扎多夫娜·纳比乌林娜实至名归的任命 女儿叫译幻取个不大众,意义还好的英文名,所有分投入,选最佳! 请问厦门或其周边有没有著名的音乐学院? 秦皇岛第三中学都有什么专业 毕业证拿到手还需要三方协议么 专升本考上了以前签的三方协议书还有效吗 毕业了三方就业协议还有用吗 bye,友们请问这啥意思? 玉米碴子和黑豆能一起煮吗 玉米碴与大米一起煮好吗 玉米碴子粥营养价值 玉米碴一起煮吃了好吗 玉米碴子粥有哪些营养价值? ppt改成了文件形式怎么改回来ppt改成文档怎么弄 读书笔记Llama 2: Open Foundation and Fine-Tuned Chat Models_百度知... 多层式营销是什么意思? 【LLM】 MM-LLM:多模态大语言模型的最新进展 保险是不是多层级营销 PPT文字描边设计效果这个PPT描边技巧完美解决新手小白文字设计难题 康宝莱多层级返利模式存传销质疑 转型奶茶店模式实为“拉人头”?_百度... 文字描边原来大有玄机,教你用PPT做出炫酷字效! ppt任意多边形描边怎么描得准确些ppt多边形工具手动描边 求与"liang"读音相似的英文名 怎么把文件夹压缩成压缩包(文件压缩包怎么弄) 如何查看自己的淘宝消费总额和淘龄? 高档小区鞋柜袜子(楼道鞋柜袜子) 求真人cs楼道战技巧。 金鸡百花奖永久落户厦门 金鸡奖为什么落户厦门 厦门金鸡奖日期 是什么时候 个人自学兽医可以开宠物小诊所吗? 最全的AI训练模型盘点 (持续更新) 如何做知识库大模型? 迄今为止最大、性能最好的AI模型——CodeLlama70B 采用小语言模型微调大语言模型的一个模拟器