这可能是最全的开源 LLMs(大语言模型)整理了吧

发布网友发布时间：2024-10-08 20:19

共1个回答

热心网友时间：2024-10-08 20:30

在开源领域，大语言模型（LLMs）的研究和应用正日益活跃。以下是一些关键的开源LLM项目及其概述：

1. Alpaca：斯坦福大学的研究人员开发的基于LLaMA指令微调的模型，用较少资源达到与大模型相似的性能。

- 发布日期：2023年3月13日

- 参考：crfm.stanford.edu/2023/...

2. BLOOM：Hugging Face与BigScience Workshop合作的开源LLM，后被Meta的LLaMA模型取代。

- 发布日期：2022年7月6日

- 参考：bigscience.huggingface.co...

3. BLOOMChat：BLOOM的变体，支持指令微调，源自1760亿参数的SambaNova模型。

- 发布日期：2023年5月19日

- 参考：sambanova.ai/blog/intro...

4. Cerebras-GPT：由Cerebras公司基于Chinchilla缩放定律开发的模型，展示其Waffle-Scale技术。

- 发布日期：2023年3月28日

- 参考：huggingface.co/cerebras

5. Dolly：使用Databricks训练的LLM，后经过指令微调。

- 发布日期：2023年3月24日

- 参考：databricks.com/blog/2023...

6. Falcon LLM：阿布扎比研究院的旗舰模型，以自定义数据流程和分布式训练系统为特色。

- 发布日期：2023年5月23日

- 参考：falconllm.tii.ae/

7. FastChat：LMSYS开发的LLM聊天机器人平台，支持训练和评估。

- 发布日期：2023年4月28日

- 参考：github.com/lm-sys/FastC...

8. FLAN-T5与FLAN-UL2：Google的T5模型变体，采用指令调优，FLAN-UL2在理解任务中表现更优。

- 发布日期：FLAN-T5：2022年12月6日；FLAN-UL2：2023年3月3日

9. GPT-J与GPT4All：开源模型，GPT-J与GPT-3类似，GPT4All提供了训练框架。

- 发布日期：GPT-J：2021年6月9日；GPT4All：2023年3月26日

10. Vicuna与Koala：LLaMA后代，Vicuna在某些测试中表现优秀，Koala性能略逊但受到限制。

- 发布日期：Vicuna：2023年3月30日；Koala：2023年4月3日

LLaMA本身是Meta AI提供的开放研究模型，适用于学术研究，其性能优于GPT-3。

以上这些开源LLM项目展示了在模型性能、训练资源和使用限制方面的多样性，为研究人员和爱好者提供了丰富的资源和探索空间。