问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM_百度...

发布网友 发布时间:2024-10-19 17:31

我来回答

1个回答

热心网友 时间:2024-12-02 04:34

机器之心报道,编辑:Panda。

探究理解语言含义是否需要感官基础的哲学问题时,哲学家们见解不一,但共识是感官定基(grounding)对于语言理解至少有益。例如,科学家普遍认为,寒武纪大爆发期间视觉的进化对早期动物演化至关重要,它不仅帮助动物获取食物、躲避捕食者,还促进了动物的进化。人类和其他动物的大部分知识源自与物理世界的感官交互,包括视觉、听觉、触觉、味觉和嗅觉。这些感官体验构成我们理解世界的基石,也是我们做出行动和决策的关键。

这一思想不仅适用于哲学探讨,也具有实际应用价值,尤其是在多模态大型语言模型(LLM)领域的发展。多模态语言模型表现出强大的规模扩展能力,而近期多模态学习的进展很大程度上得益于更大更好的LLM。然而,视觉组件设计选择的探索与视觉表征学习研究脱节,这主要是由于涉及复杂训练和评估流程,以及需要考虑的众多设计选择。

最近,纽约大学谢赛宁和Yann LeCun团队以视觉为中心对LLM进行了探索,并据此构建了Cambrian-1系列模型。这项研究的动机源于当前多模态学习研究的两个关键问题:过度依赖语言作为捷径,可能会掩盖有效视觉表征学习的不足;现有基准可能无法充分反映真实世界场景中的感知难题。团队发现,在将LLM应用于高难度真实世界应用时,视觉定基已成为瓶颈。

团队通过将指令微调应用于多种视觉表征评估,对上述问题进行了深入研究。他们构建了一个视觉为中心的LLM基准CV-Bench,将传统的视觉基准转换为视觉问答(VQA)格式,以更准确地反映真实世界场景的感知难题。Cambrian-1系列模型基于五大关键支柱构建,展现出在多个基准上的领先性能,尤其在以视觉为中心的任务上表现出色。

多模态LLM的基础知识包括大型语言模型、视觉编码器、多模态连接器、数据整合流程、指令微调策略、评估与基准评测。通过评估不同视觉编码器选择对多模态能力的影响,团队发现视觉编码器如CLIP因其与语言预对齐,易于适应LLM token空间,但强大的语言先验可能既有利又有弊。

在评估视觉表征时,团队提出了一种稳健的评估框架,强调将现有视觉基准调整为VQA任务,以更准确地评估以视觉为中心的LLM能力。通过分析不同视觉骨干网络,团队识别了CV-Bench的优势,该基准包含大量人工检查的样本,可以更全面地评估2D和3D理解能力。

团队通过研究指令微调方案,发现双阶段训练和更多适应器数据对结果提升有益。不冻结视觉编码器有助于更好地整合语言监督和自我监督模型,尤其是在以视觉为中心的基准上表现出色。通过探索组合多个视觉编码器,团队发现它们在多种基准上能提升LLM性能,尤其是对于需要高分辨率图像处理的任务。

空间视觉聚合器(SVA)是一种连接器新设计,用于有效聚合多个视觉编码器的特征并防止信息损失。通过使用可学习的隐含查询集合,SVA模块能与多个视觉特征交互,提供在多种基准上优于对比技术的性能。

团队还构建了一个大型指令微调数据集,用于训练LLM。数据集包含多样化的任务和高质量的图像-文本对,通过解析器和LLM生成的问答对,形成VQA数据集。经过数据整编和系统prompt优化,团队创建了更高质量的数据集,减少了答题机现象,提升了对话能力和推理能力。

最后,团队训练了Cambrian-1系列模型,使用不同规模的LLM骨干网络,结合空间视觉聚合器组合多个视觉编码器,通过预训练和微调实现了在多个基准上的领先性能。Cambrian-1展示了在处理需要高分辨率图像处理任务时的强大能力,以及在多个基准上与最佳专有模型相当的性能,展示了其在多模态LLM领域的潜力。
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM

最近,纽约大学谢赛宁和Yann LeCun团队以视觉为中心对LLM进行了探索,并据此构建了Cambrian-1系列模型。这项研究的动机源于当前多模态学习研究的两个关键问题:过度依赖语言作为捷径,可能会掩盖有效视觉表征学习的不足;现有基准可能无法充分反映真实世界场景中的感知难题。团队发现,在将LLM应用于高难度真实...

队名 团队口号 财务团队的口号和队名 最佳团队口号 工作口号团队口号 微信诞生于2011年几月几号 业务团队口号 关于团队的口号 项目团队口号 团队成功口号
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
金蝶精斗云备份 美人鱼在世界上存在吗 综合来看,宁波哪个区比较适宜居住,哪个区的环境及设施比较 宁波十大购物好地方 宁波购物游去哪里好 你不想去买买买吗 一两白银是多重? vivo从手机u盘和sd卡安装显示未找到文件证书查询 用微笑来阻止眼角泪珠的伤感签名 跪求有关乌鸦的传说和事情 什么牌子面膜补水保湿效果最好 哪些面膜的补水保湿效果比较好? 我为什么不看好LLM —— 记过去一年实习经历有感 什么是大型语言模型 什么是融资。不是问什么高利贷的融资,例如一个公司对一个还没上市的公 ... 我想问问影响融资有哪些因素 什么是借壳融资 ...在计算一道加法题时,把一个加数十位上的5看成了1,百位上的3看成了2... 小明在做加法题时,错把一个加数的十位上的3看作了2,把另一个加数... 江苏农村专项计划怎么填志愿 lg kf510怎么下歌啊 LG KF510 怎么下游戏 手机在哪下? 请问用LGKF510手机上网下载适合本手机的主题,软件等在哪个网址_百度知 ... LG KF510可以下载的软件多吗? 亲,祝你生日快乐!开心每一天!英语怎么说,求解 奔二了,在这里祝自己:生日快乐,身体健康,开心每一天,,,还有,,,越长大... ...祝自己身体健康,生日快乐,开心每一天,赚钱多多,翻译英文是... 祝亲爱自己生日快乐、心想事成,开心快乐每一天,幸福安康!英文怎么... 脾肾阳虚气血不足用什么泡脚 高中学年度社区服务学分认定表如何填写 普通话官方会不会把别人的成绩给了另一个人 考普通话在网上报名,需要去现场确认,对吗。如果在培训机构那里... BLIP-2 下一代多模态模型的雏形 微信号被永久封号了,能不能再买一个手机号注册一个使用? 三台县2019年社保一次交清38000,还有吗 三台县哪些工作可以购买社保 2009年绵阳市三台县个人社保缴费标准是多少? 2024年山东省春节期间哪些地方可以燃放烟花爆竹? 微火共享WiFi官网是多少,官方回应,避免受骗认准温州专帮科技! 贵州力佳乐顿商贸有限公司怎么样? 深圳市奥特力佳科技有限公司怎么样? 植物补光灯和植物生长灯的区别在哪? 写对玄奘的评价、作文、 自学工笔画,不知道从哪里入手 ...明星本来你很喜欢,但是上了综艺节目后,你就开始反感他了?_百度... 单缸柴油机32马力的那个牌子好 美国需要进口可可的原因 河北美国NOP证书可可粉 hand free audio和audio的区别 11月份预报普通话考试,但是没有到现场缴费确认报名,现在想报名12月份的... 戚家军当年对倭寇百战百胜,为何后来对战后金却很吃力? 农村独生家庭和农村二女户医保怎么缴纳?