在缺失模态的情况下,如何进行多模态融合?
发布网友
发布时间:2024-09-15 08:30
我来回答
共1个回答
热心网友
时间:2024-11-13 03:40
在多模态融合的挑战中,一项最新研究《Multimodal Prompting with Missing Modalities for Visual Recognition》, CVPR, 2023, 提出了一种创新方法,处理在多模态数据中普遍存在的模态缺失情况。不同于其他论文,该研究专注于不同模态的普遍缺失,不论是在训练还是测试阶段,且不论缺失的是数据样本还是特定模态。研究者通过在多模态Transformer中嵌入缺失感知提示,仅用不到1%的可学习参数,适应性地处理模态缺失,从而避免了对整个模型的大量微调。
论文的焦点在于设计一种轻量级的解决方案,以适应多模态Transformer在实际应用中可能遇到的资源限制。在多模态数据样本中,任何模态的缺失都可能在训练和测试中发生,如图像和文本数据的缺失。研究引入了两种提示学习方式:输入级和注意级,将缺失模态视为不同类型的输入,并通过可学习的提示缓解性能下降。
研究的主要贡献包括:
1. 扩展了多模态学习场景,考虑了训练和测试中多种模态缺失的可能性。
2. 通过缺失感知提示仅微调少量参数,有效应对预训练Transformer的大型化带来的计算负担。
3. 对比了输入级和注意级提示,发现输入级提示通常效果更好,但注意级提示对数据集更敏感。
方法部分,研究者构建了一个模型框架,以ViLT预训练Transformer为基础,通过虚拟输入处理缺失模态,并通过提示学习来调整模型预测。通过实验,研究人员展示了他们的方法在MM-IMDb、UPMC Food-101和Hateful Memes等数据集上的性能,以及对提示长度和层位置的敏感性分析。
论文的局限性可能包括提示设计对特定数据集的适应性,以及在某些情况下提示长度可能需要进行更精细的调整以优化性能。尽管如此,这项工作为在资源受限的环境下处理多模态数据提供了有前景的解决方案。