这可能是最全的开源 LLMs(大语言模型)整理了吧
发布网友
发布时间:2024-10-08 20:19
我来回答
共1个回答
热心网友
时间:2024-10-08 20:30
在开源领域,大语言模型(LLMs)的研究和应用正日益活跃。以下是一些关键的开源LLM项目及其概述:
1. Alpaca:斯坦福大学的研究人员开发的基于LLaMA指令微调的模型,用较少资源达到与大模型相似的性能。
- 发布日期:2023年3月13日
- 参考:crfm.stanford.edu/2023/...
2. BLOOM:Hugging Face与BigScience Workshop合作的开源LLM,后被Meta的LLaMA模型取代。
- 发布日期:2022年7月6日
- 参考:bigscience.huggingface.co...
3. BLOOMChat:BLOOM的变体,支持指令微调,源自1760亿参数的SambaNova模型。
- 发布日期:2023年5月19日
- 参考:sambanova.ai/blog/intro...
4. Cerebras-GPT:由Cerebras公司基于Chinchilla缩放定律开发的模型,展示其Waffle-Scale技术。
- 发布日期:2023年3月28日
- 参考:huggingface.co/cerebras
5. Dolly:使用Databricks训练的LLM,后经过指令微调。
- 发布日期:2023年3月24日
- 参考:databricks.com/blog/2023...
6. Falcon LLM:阿布扎比研究院的旗舰模型,以自定义数据流程和分布式训练系统为特色。
- 发布日期:2023年5月23日
- 参考:falconllm.tii.ae/
7. FastChat:LMSYS开发的LLM聊天机器人平台,支持训练和评估。
- 发布日期:2023年4月28日
- 参考:github.com/lm-sys/FastC...
8. FLAN-T5与FLAN-UL2:Google的T5模型变体,采用指令调优,FLAN-UL2在理解任务中表现更优。
- 发布日期:FLAN-T5:2022年12月6日;FLAN-UL2:2023年3月3日
9. GPT-J与GPT4All:开源模型,GPT-J与GPT-3类似,GPT4All提供了训练框架。
- 发布日期:GPT-J:2021年6月9日;GPT4All:2023年3月26日
10. Vicuna与Koala:LLaMA后代,Vicuna在某些测试中表现优秀,Koala性能略逊但受到限制。
- 发布日期:Vicuna:2023年3月30日;Koala:2023年4月3日
LLaMA本身是Meta AI提供的开放研究模型,适用于学术研究,其性能优于GPT-3。
以上这些开源LLM项目展示了在模型性能、训练资源和使用限制方面的多样性,为研究人员和爱好者提供了丰富的资源和探索空间。