寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM_百度...

发布网友发布时间：2024-10-19 17:31

共1个回答

热心网友时间：2024-12-02 04:34

机器之心报道，编辑：Panda。

探究理解语言含义是否需要感官基础的哲学问题时，哲学家们见解不一，但共识是感官定基（grounding）对于语言理解至少有益。例如，科学家普遍认为，寒武纪大爆发期间视觉的进化对早期动物演化至关重要，它不仅帮助动物获取食物、躲避捕食者，还促进了动物的进化。人类和其他动物的大部分知识源自与物理世界的感官交互，包括视觉、听觉、触觉、味觉和嗅觉。这些感官体验构成我们理解世界的基石，也是我们做出行动和决策的关键。

这一思想不仅适用于哲学探讨，也具有实际应用价值，尤其是在多模态大型语言模型（LLM）领域的发展。多模态语言模型表现出强大的规模扩展能力，而近期多模态学习的进展很大程度上得益于更大更好的LLM。然而，视觉组件设计选择的探索与视觉表征学习研究脱节，这主要是由于涉及复杂训练和评估流程，以及需要考虑的众多设计选择。

最近，纽约大学谢赛宁和Yann LeCun团队以视觉为中心对LLM进行了探索，并据此构建了Cambrian-1系列模型。这项研究的动机源于当前多模态学习研究的两个关键问题：过度依赖语言作为捷径，可能会掩盖有效视觉表征学习的不足；现有基准可能无法充分反映真实世界场景中的感知难题。团队发现，在将LLM应用于高难度真实世界应用时，视觉定基已成为瓶颈。

团队通过将指令微调应用于多种视觉表征评估，对上述问题进行了深入研究。他们构建了一个视觉为中心的LLM基准CV-Bench，将传统的视觉基准转换为视觉问答（VQA）格式，以更准确地反映真实世界场景的感知难题。Cambrian-1系列模型基于五大关键支柱构建，展现出在多个基准上的领先性能，尤其在以视觉为中心的任务上表现出色。

多模态LLM的基础知识包括大型语言模型、视觉编码器、多模态连接器、数据整合流程、指令微调策略、评估与基准评测。通过评估不同视觉编码器选择对多模态能力的影响，团队发现视觉编码器如CLIP因其与语言预对齐，易于适应LLM token空间，但强大的语言先验可能既有利又有弊。

在评估视觉表征时，团队提出了一种稳健的评估框架，强调将现有视觉基准调整为VQA任务，以更准确地评估以视觉为中心的LLM能力。通过分析不同视觉骨干网络，团队识别了CV-Bench的优势，该基准包含大量人工检查的样本，可以更全面地评估2D和3D理解能力。

团队通过研究指令微调方案，发现双阶段训练和更多适应器数据对结果提升有益。不冻结视觉编码器有助于更好地整合语言监督和自我监督模型，尤其是在以视觉为中心的基准上表现出色。通过探索组合多个视觉编码器，团队发现它们在多种基准上能提升LLM性能，尤其是对于需要高分辨率图像处理的任务。

空间视觉聚合器（SVA）是一种连接器新设计，用于有效聚合多个视觉编码器的特征并防止信息损失。通过使用可学习的隐含查询集合，SVA模块能与多个视觉特征交互，提供在多种基准上优于对比技术的性能。

团队还构建了一个大型指令微调数据集，用于训练LLM。数据集包含多样化的任务和高质量的图像-文本对，通过解析器和LLM生成的问答对，形成VQA数据集。经过数据整编和系统prompt优化，团队创建了更高质量的数据集，减少了答题机现象，提升了对话能力和推理能力。

最后，团队训练了Cambrian-1系列模型，使用不同规模的LLM骨干网络，结合空间视觉聚合器组合多个视觉编码器，通过预训练和微调实现了在多个基准上的领先性能。Cambrian-1展示了在处理需要高分辨率图像处理任务时的强大能力，以及在多个基准上与最佳专有模型相当的性能，展示了其在多模态LLM领域的潜力。

寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM

最近，纽约大学谢赛宁和Yann LeCun团队以视觉为中心对LLM进行了探索，并据此构建了Cambrian-1系列模型。这项研究的动机源于当前多模态学习研究的两个关键问题：过度依赖语言作为捷径，可能会掩盖有效视觉表征学习的不足；现有基准可能无法充分反映真实世界场景中的感知难题。团队发现，在将LLM应用于高难度真实...

队名团队口号财务团队的口号和队名最佳团队口号工作口号团队口号微信诞生于2011年几月几号业务团队口号关于团队的口号项目团队口号团队成功口号