寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM_百度...
发布网友
发布时间:2024-10-19 17:31
我来回答
共1个回答
热心网友
时间:2024-12-02 04:34
机器之心报道,编辑:Panda。
探究理解语言含义是否需要感官基础的哲学问题时,哲学家们见解不一,但共识是感官定基(grounding)对于语言理解至少有益。例如,科学家普遍认为,寒武纪大爆发期间视觉的进化对早期动物演化至关重要,它不仅帮助动物获取食物、躲避捕食者,还促进了动物的进化。人类和其他动物的大部分知识源自与物理世界的感官交互,包括视觉、听觉、触觉、味觉和嗅觉。这些感官体验构成我们理解世界的基石,也是我们做出行动和决策的关键。
这一思想不仅适用于哲学探讨,也具有实际应用价值,尤其是在多模态大型语言模型(LLM)领域的发展。多模态语言模型表现出强大的规模扩展能力,而近期多模态学习的进展很大程度上得益于更大更好的LLM。然而,视觉组件设计选择的探索与视觉表征学习研究脱节,这主要是由于涉及复杂训练和评估流程,以及需要考虑的众多设计选择。
最近,纽约大学谢赛宁和Yann LeCun团队以视觉为中心对LLM进行了探索,并据此构建了Cambrian-1系列模型。这项研究的动机源于当前多模态学习研究的两个关键问题:过度依赖语言作为捷径,可能会掩盖有效视觉表征学习的不足;现有基准可能无法充分反映真实世界场景中的感知难题。团队发现,在将LLM应用于高难度真实世界应用时,视觉定基已成为瓶颈。
团队通过将指令微调应用于多种视觉表征评估,对上述问题进行了深入研究。他们构建了一个视觉为中心的LLM基准CV-Bench,将传统的视觉基准转换为视觉问答(VQA)格式,以更准确地反映真实世界场景的感知难题。Cambrian-1系列模型基于五大关键支柱构建,展现出在多个基准上的领先性能,尤其在以视觉为中心的任务上表现出色。
多模态LLM的基础知识包括大型语言模型、视觉编码器、多模态连接器、数据整合流程、指令微调策略、评估与基准评测。通过评估不同视觉编码器选择对多模态能力的影响,团队发现视觉编码器如CLIP因其与语言预对齐,易于适应LLM token空间,但强大的语言先验可能既有利又有弊。
在评估视觉表征时,团队提出了一种稳健的评估框架,强调将现有视觉基准调整为VQA任务,以更准确地评估以视觉为中心的LLM能力。通过分析不同视觉骨干网络,团队识别了CV-Bench的优势,该基准包含大量人工检查的样本,可以更全面地评估2D和3D理解能力。
团队通过研究指令微调方案,发现双阶段训练和更多适应器数据对结果提升有益。不冻结视觉编码器有助于更好地整合语言监督和自我监督模型,尤其是在以视觉为中心的基准上表现出色。通过探索组合多个视觉编码器,团队发现它们在多种基准上能提升LLM性能,尤其是对于需要高分辨率图像处理的任务。
空间视觉聚合器(SVA)是一种连接器新设计,用于有效聚合多个视觉编码器的特征并防止信息损失。通过使用可学习的隐含查询集合,SVA模块能与多个视觉特征交互,提供在多种基准上优于对比技术的性能。
团队还构建了一个大型指令微调数据集,用于训练LLM。数据集包含多样化的任务和高质量的图像-文本对,通过解析器和LLM生成的问答对,形成VQA数据集。经过数据整编和系统prompt优化,团队创建了更高质量的数据集,减少了答题机现象,提升了对话能力和推理能力。
最后,团队训练了Cambrian-1系列模型,使用不同规模的LLM骨干网络,结合空间视觉聚合器组合多个视觉编码器,通过预训练和微调实现了在多个基准上的领先性能。Cambrian-1展示了在处理需要高分辨率图像处理任务时的强大能力,以及在多个基准上与最佳专有模型相当的性能,展示了其在多模态LLM领域的潜力。
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
最近,纽约大学谢赛宁和Yann LeCun团队以视觉为中心对LLM进行了探索,并据此构建了Cambrian-1系列模型。这项研究的动机源于当前多模态学习研究的两个关键问题:过度依赖语言作为捷径,可能会掩盖有效视觉表征学习的不足;现有基准可能无法充分反映真实世界场景中的感知难题。团队发现,在将LLM应用于高难度真实...