【LLM】 MM-LLM:多模态大语言模型的最新进展

发布网友发布时间：2024-08-18 14:11

共1个回答

热心网友时间：2024-08-22 02:46

论文对MM-LLM进行了全面调研，重点关注近期的进展。首先，将模型架构分为五个组件，详细概述了通用的设计公式和训练流程。其次，介绍了各种SOTA MM-LLM，每一个都以其特定的公式为特色。还阐明了它们在各种MM基准上的能力，并展望了这个快速发展的领域的未来发展。

图1:MM-LLM的时间线

多模态(MultiModal，MM)预训练研究在近年来取得了重大进展，在一系列下游任务中不断推进性能边界。然而，随着模型和数据集规模的不断扩大，传统的MM模型会产生巨大的计算成本，特别是从头开始训练。认识到MM研究处于各种模式的交汇处，一个合乎逻辑的方法是利用现成的预训练好的单模基础模型，特别强调强大的大语言模型(LLM)。这一策略旨在降低计算费用，提高MM预训练的效果，导致了一个新领域的出现:MM-LLM。

MM-LLM利用LLM作为认知动力，赋能各种MM任务。LLM贡献了强大的语言生成、zero-shot迁移能力和上下文学习(In-Context Learning，ICL)等理想特性。同时，其他模式中的基础模型提供高质量的表示。考虑到不同模式的基础模型都是单独预训练的，MM-LLM面临的核心挑战是如何有效地将LLM与其他模式中的模型连接起来，以实现协同推理。这一领域的主要关注点一直是通过MM预训练(PT)+ MM指令调优(IT)流程来优化模式之间的对齐并与人类意图对齐。

在GPT-4(Vision)和Gemini)的首次亮相展示了MM理解和生成能力后，MMLLM的研究热情被激发。最初的研究主要关注MM内容理解和文本生成，如Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT4、MultiModal-GPT、VideoChat、VideoLLaMA、IDEFICS、Fuyu-8B和QwenAudio。为了实现能够进行MM输入和输出的MM-LLM，一些研究者还额外探索了特定模式的生成，例如Kosmos2和MiniGPT-5引入了图像生成，SpeechGPT引入了语音生成。

最近的研究努力致力于模拟人类般的任意模式间转换，为通用人工智能指明了道路。一些工作旨在将LLM与外部工具融合，以实现接近“任意转换”的MM理解和生成，例如Visual-ChatGPT、ViperGPT、MMREACT、HuggingGPT和AudioGPT。相反，为了减轻级联系统中误差的传播，诸如NExT-GPT和CoDi-2等计划已经开发出了端到端的任意模式MM-LLM。 MM-LLM的时间线如图1所示。

论文展示了一个全面调研，旨在促进MM-LLM的进一步研究。为了让读者全面理解MM-LLM，首先从模型架构和训练流程勾勒出一般的设计公式。将一般的模型架构分解为五个组件：模态编码器、输入投影仪、LLM骨干、输出投影仪和模态生成器。

图2:MM-LLM的一般模型架构及每个组件的实现选择

训练流程阐明了如何增强仅限文本的预训练LLM以支持MM输入或输出，主要包含两个阶段:

还总结了主流的MM PT和MM IT数据集:

表1:26个主流MM-LLM的汇总。I→O:输入到输出模式，I:图像，V:视频，A:音频，3D:点云，T:文本。在模态编码器中，“-L”表示大型，“-G”表示巨型，“/14”表示补丁大小为14，“@224”表示图像分辨率为224×224。#.PT和#.IT分别代表MM PT和MM IT期间的数据集规模。†包括不公开的内部数据

表2:主流MM-LLM在18个VL基准上的比较。红色表示最高结果，蓝色表示第二高结果。‡表示ShareGPT4V(Chen等，2023e)在基准或原论文中遗漏的重新实现的测试结果。数据集的训练图像在训练期间被观察到*

未来方向

论文从以下几个方面探索MM-LLM的有前景的未来方向:

更强大的模型

可以从以下四个关键途径增强MM-LLM的力量:

(1)扩展模态:当前的MM-LLM通常支持以下模态:图像、视频、音频、3D和文本。然而，现实世界涉及更广泛的模态。将MM-LLM扩展到容纳更多模态(例如网页、热力图和图表)，将提高模型的通用性，使其更加普适。

(2)多样化LLM:结合各种类型和大小的LLM为从业者提供根据其特定要求选择最合适的LLM的灵活性。

(3)改进MM IT数据集质量:当前的MM IT数据集仍有很大的改进和扩展空间。扩大指令范围可以增强MM-LLM理解和执行用户命令的效果。

(4)加强MM生成能力:当前大多数MM-LLM主要面向MM理解。尽管一些模型已经集成了MM生成能力，但生成响应的质量可能受LDM能力的限制。探索集成检索式方法(Asai等，2023)在补充生成过程方面具有巨大的前景，可能提高模型的整体性能。

更具挑战性的基准

鉴于许多数据集在一定程度上已经出现在PT或IT集中，现有的基准可能无法充分挑战MM-LLM的能力，这意味着模型可能已经在训练中学习了这些任务。此外，当前的基准主要集中在VL子领域。因此，构建一个更具挑战性、更大规模的基准是MM-LLM发展的关键，该基准应包含更多的模式，并使用统一的评估标准。同时，基准可以定制为评估MM-LLM在实际应用中的熟练程度。例如，引入GOATBench(Lin等，2024)旨在评估各种MM-LLM识别和响应meme中存在的微妙的社交滥用方面的能力。

移动/轻量级部署

为了在资源受限的平台上部署MM-LLM并实现最佳性能，如低功耗移动和物联网设备，轻量级实现至关重要。这一领域的一个显着进步是MobileVLM(Chu等，2023a)。这种方法战略性地降低了LLaMA的规模，允许无缝的现成部署。MobileVLM进一步引入了一个轻量级下采样投影仪，包含不到2000万个参数，有助于提高计算速度。尽管如此，这一领域还需要进一步探索以实现进一步发展。

具身智能(Embodied Intelligence)

具身智能旨在通过有效理解环境、识别相关对象、评估其空间关系并制定全面的任务计划来模拟人类对周围环境的感知和交互。具身AI任务(如具身规划、具身视觉问答和具身控制)使机器人能够利用实时观察自主实施扩展计划。这一领域的一些典型工作是PaLM-E(Driess等，2023)和EmbodiedGPT(Mu等，2023)。PaLM-E通过训练MM-LLM引入了一个多具身代理。除了仅作为具身决策者之外，PaLM-E还展示了处理一般VL任务的熟练程度。EmbodiedGPT引入了一种经济有效的方法，其特征在于CoT方法，增强了具身代理与现实世界互动的能力，并建立了连接高层计划与低层控制的闭环。虽然基于MM-LLM的具身智能在与机器人的集成方面取得了进展，但需要进一步的探索来增强机器人的自主性。

持续IT

在实际应用中，期望MM-LLM能够适应新的MM任务，以支持额外的功能。然而，当前的MM-LLM仍然是静态的，无法适应不断出现的新要求。因此，需要一种方法使模型足够灵活，可以高效持续利用新出现的数据，同时避免重新训练MM-LLM的巨大成本。这与持续学习的原则一致，在持续学习中，模型被设计为类似人类学习那样渐进地学习新任务。持续IT旨在在保持原MM IT阶段学习任务的卓越表现的同时，持续微调MM-LLM以适应新的MM任务。它引入了两个主要挑战:(1)灾难性遗忘，即模型在学习新任务时忘记以前的知识;(2)负向前移传递，指出当学习新任务时未见任务的性能下降。最近，He等建立了一个基准，以推动MM-LLM的持续IT发展。尽管取得了这些进步，但在开发更好的方法来解决灾难性遗忘和负向前移传递的挑战方面，仍有很大的改进空间。

论文标题：MM-LLMs: Recent Advances in MultiModal Large Language Models

论文链接： arxiv.org/abs/2401.1360...

【LLM】 MM-LLM:多模态大语言模型的最新进展

多模态LLM多到看不过来?先看这26个SOTA模型吧

在AI研究的前沿，多模态大型语言模型（MM-LLM）正成为瞩目的焦点。腾讯AI Lab等机构联合发布了一篇详尽的综述报告，深度剖析了MM-LLM的架构、训练策略以及业界的26个顶级模型。这篇报告旨在揭示MM-LLM如何利用大规模语言模型（LLM）的力量，降低成本并提升效率，以及在模态对齐和意图理解中的革新挑战。让我...

多模态LLM多到看不过来?先看这26个SOTA模型吧

当前AI领域关注重心转向多模态领域，多模态大型语言模型（MM-LLM）成为研究热点。腾讯AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学研究团队发布综述报告，全面梳理MM-LLM近期进展，推荐26个最佳MM-LLM模型，为研究和应用提供参考。MM-LLM利用大型语言模型（LLM）提供认知能力，处理多模...

多模态大语言模型的演化:综述

随着文本和视觉模态在智能生成中的核心地位，大量研究围绕多模态大语言模型（MLLMs）展开，致力于整合视觉和文本，支持对话交互和指令执行。论文详细探讨了MLLM的架构选择，如视觉编码器、语言模型和适配器模块，以及它们在视觉基础、图像生成、理解和特定领域的应用中的表现。研究者分析了多种MLLM架构，如Fl...

多模态大语言模型的演化:综述

多模态大语言模型的演变：综述自2022年意大利三所研究机构的论文发布以来，多模态大语言模型（MLLMs）的研究热潮不断，这些模型通过融合文本和视觉模态，展现出强大的智能生成能力。研究人员针对视觉编码、架构选择、对齐策略和训练技术进行了深入研究，涵盖了从基础视觉理解到特定领域应用的广泛任务。MLLM的...

MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来

在人工智能的前沿探索中，多模态大语言模型（MLLM）如同一颗璀璨的新星，引领着通用智能的探索。MLLM不仅结合了语言与视觉模型，更在智能交互与任务解决能力上取得了突破性进展。本文将深入剖析MLLM的前世、今生和未来，带你领略这一领域的全方位概览。探索多元融合MLLM的核心在于其指令调整能力，包括多模态...

...大模型,十六份榜单,全面测评「多模态大语言模型」

多模态大语言模型（MLLM）的兴起带来了革命性的能力提升，比如看图写作和看图写代码，但仅凭这些样例难以全面评估模型性能。为此，腾讯优图实验室与厦门大学共同构建了一个全面的评测基准MM，对现有12种开源MLLM模型进行了全面定量评测，并发布了16个排行榜，覆盖感知和认知能力。MLLM的评测主要面临三类局...

2023 年热门的大型语言模型 (LLMs)汇总

在2023年，大型语言模型（LLMs）领域正呈现显著增长，全球范围内，企业和研究机构纷纷投入资源开发出性能卓越的模型。以下是国内外一些热门大模型的概述：在国外，OpenAI的ChatGPT凭借GPT-3.5的强大能力，以其开放源码的聊天机器人成为焦点。它基于深度学习，能够应对多种任务，如文本交互、信息检索和创意...

AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

AI多模态大模型架构解析，包括模态编码器的介绍与图像、音频、视频编码的详细阐述。模态编码器在多模态大型语言模型（MM-LLMs）中至关重要，负责将不同模态输入转化为模型理解的特征表示。一、图像编码器 NFNet：一种无需Batch Normalization的基于ResNet网络结构，引入自适应梯度裁剪（AGC）技术稳定训练过程...

大语言模型是什么意思

大语言模型（LLM）是指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大语言模型（Large Language Model，LLM）是一种基于深度学习的人工智能模型，其主要特点是使用大量的文本数据进行训练，以便能够更好地理解和生成自然语言文本。这一类模型的代表性例子包括GPT-3（生成式...

最新语言模型 DNN语言模型语言模型是什么交叉熵和语言模型模型描述语言 bert语言模型 lstm语言模型统计语言模型简述MM模型