遥感论文 | Arxiv | 遥感视觉大模型(RSGPT)+全新遥感图像文本Benchmark...
发布网友
发布时间:2024-09-30 15:17
我来回答
共1个回答
热心网友
时间:2024-11-11 14:49
大型语言模型(LLMs)的崛起,以GPT-4为代表,引领人工智能2.0时代,促进了AI的快速发展。在遥感领域,研究开始关注专门针对该领域数据分析的大型视觉语言模型(VLMs),但目前研究多集中于视觉识别任务,缺乏全面、大规模的图像-文本数据集。
基于此,本文构建了两个数据集:RSICapDataset。基于DOTA目标检测数据集,构建了RSICap。通过将DOTA-v1.5验证集中的图像划分为512×512大小的块,并从中选择100张进行手动注释,由五名遥感专家完成。为基准测试RSIC任务创建了相应的字幕;对于RSVQA任务,为每个图像生成了问题-答案对。
RSGPT,一种为遥感(RS)视觉语言任务设计的预训练方法,采用InstructBLIP的预训练权重进行初始化。在微调阶段,仅对模型进行5个时期的训练,batchsize设为64。采用AdamW优化器,设置β1 = 0.9,β2 = 0.999,权重衰减为0.05。初始学习率为3e-5,1个时期内对学习率进行热身,余弦策略用于衰减计划。所有模型使用8个NVIDIA A100 GPU进行训练。
使用提出的评估数据集RSIEval,将RSGPT与BLIP2、MiniGPT4和InstructBLIP进行对比评估。通过手动评分评估模型在遥感图像字幕生成(RSIC)和遥感视觉问答(RSVQA)任务上的性能。
在RSIC任务中,每个模型为RSIEval中的100张图像生成了相应的字幕,从详细描述、位置描述和臆想描述三个维度进行评分。采用四级评分系统,分别为A、B、C或D进行评级,各维度评分结果如图所示。在RSVQA任务中,测试集中的936个问题分为10个类别,覆盖了从对象级别到图像级别、场景级别和推理级别的问题。
通过与SOTA模型对比,本文提出了遥感数据集RSICap和遥感大模型RSGPT,为遥感领域带来了创新和突破,显著提升了相关任务的处理能力。