问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系_百...

发布网友 发布时间:2024-10-02 08:25

我来回答

1个回答

热心网友 时间:2024-11-08 19:22

编辑:好困

本文提出了一种基于全景分割的全场景图生成(PSG)任务。与传统的基于检测框的场景图生成相比,PSG任务不仅要全面输出图像中的所有关系,包括物体与物体、物体与背景、背景与背景之间的关系,还要用准确的分割块来定位物体。PSG任务旨在推动计算机视觉模型对场景的全面理解和感知,以更好地支持场景描述、视觉推理等下游任务。同时,PSG数据集提供的关系标注和全景分割也为解决当前图像生成领域对关系不敏感的问题创造了新的机遇。

目前,大多数计算机视觉任务仍然只关注图像感知。例如,图像分类任务只需要模型识别图像中的物体类别。尽管目标检测和图像分割等任务要求找到物体的位置,但此类任务仍然不足以说明模型已经对场景有了全面深入的理解。

以下图1为例,如果计算机视觉模型只检测到图片中的人、大象、栅栏、树木等,我们通常不会认为模型已经理解了图片,而该模型也无法根据理解做出更高级的决策,例如发出“禁止投喂”的警告。

事实上,在智慧城市、自动驾驶、智能制造等许多现实世界的AI场景中,除了对场景中的目标进行定位外,我们通常还期待模型对图像中各个主体之间的关系进行推理和预测。例如,在自动驾驶应用中,汽车需要分析路边的行人是在推车还是在骑自行车。根据不同的情况,相应的后续决策可能都会有所不同。而在智能工厂场景中,判断操作员是否操作安全正确也需要监控端的模型有理解主体之间关系的能力。

大多数现有的方法都是手动设置一些硬编码的规则。这使得模型缺乏泛化性,难以适应其他特定情况。

场景图生成任务(SGG)旨在解决上述问题。在对目标物体进行分类和定位的要求之上,SGG任务还需要模型预测对象之间的关系。

传统场景图生成任务的数据集通常具有对象的边界框标注,并标注边界框之间的关系。但是,这种设置有几个固有的缺陷:(1)边界框无法准确定位物体;(2)背景无法标注。

因此,作者提出全场景图生成(PSG)任务,携同一个精细标注的大规模PSG数据集。

该任务利用全景分割来全面准确地定位对象和背景,从而解决场景图生成任务的固有缺点,推动该领域朝着全面和深入的场景理解迈进。

作者提出的PSG数据集包含近五万张coco的图片,并基于coco已有的全景分割标注,标注了分割块之间的关系。作者精细地定义了56种关系,包括位置关系、常见的物体间关系、常见的生物动作、人类行为、交通场景中的关系、运动场景中的关系、以及背景间关系。

作者要求标注员能用更准确的动词表达就绝不用更模糊的表达,并且尽可能全地标注图中的关系。

作者通过下图的例子再次理解全场景图生成(PSG)任务的优势。

为了支撑提出的PSG任务,作者搭建了一个开源代码平台OpenPSG,其中实现了四个双阶段的方法和两个单阶段的方法,方便大家开发、使用、分析。

PSGFormer是基于双decoder DETR的单阶段方法。模型首先通过卷积神经网络backbone提取图片特征并加以位置编码信息作为编码器的输入,同时初始化一组用以表示三元组的queries。与DETR类似地,模型将编码器的输出作为key和value与表示三元组的queries一同输入解码器进行cross-attention操作。随后模型将解码完成的每个query分别输入主谓宾三元组对应的预测模块,最后得到对应的三元组预测结果。

PSGFormer基于双decode的DETR的单阶段方法。模型通过CNN提取图片特征,加以位置编码信息输入编码器,同时初始化了两组queries分别代表物体和关系。接着在b)步骤里,模型基于编码器编码的图片信息,分别在物体解码器和关系解码器中通过cross-attention解码学习物体query和关系query。当两类query均学习完毕后,在c)中通过映射后匹配,得到成对的三元组query。最后在d)中通过预测头分别完成关于物体query和关系query的预测,并根据c)中的匹配结果得到最终的三元组预测结果。

PSGTR与PSGFormer都是在DETR的基础上进行扩展和改进的模型,不同的地方在于PSGTR用一组query对于三元组直接建模而PSGFormer则通过两组query分别对物体和关系建模,两种方法各有利弊,具体可参考论文中实验结果。

大部分在SGG任务上有效的方法在PSG任务上依旧有效。然而有一些利用较强的数据集统计先验,或主谓宾中谓语方向先验的方法可能没那么奏效。这可能是由于PSG数据集相较于传统VG数据集的bias没有那么严重,并且对谓语动词的定义更加清晰可学。因此,作者希望后续的方法关注视觉信息的提取和对图片本身的理解。统计先验可能在刷数据集上有效,但不本质。

相比于双阶段模型,单阶段模型目前能达到更好的效果。这可能得益于单阶段模型有关于关系的监督信号可以直接传递到feature map端,使得关系信号参与了更多的模型学习,有利于对关系的捕捉。但是由于本文只提出了若干基线模型,并没有针对单阶段或双阶段模型进行调优,因此目前还不能说单阶段模型一定强于双阶段模型。这还希望参赛选手继续探索。

相比于传统的SGG任务,PSG任务基于全景分割图进行关系配对,要求对于每个关系中主宾物体的id进行确认。相比于双阶段直接预测全景分割图完成物体id的划分,单阶段模型需要通过一系列后处理完成这一步骤。若基于现有单阶段模型进一步改进升级,如何在单阶段模型中更有效地完成物体id的确认,生成更好的全景分割图,仍是一个值得探索的话题。

最后,欢迎大家试用HuggingFace:

Demo:huggingface.co/spaces/E...

关于图像生成的展望

最近大火的基于文字输入的生成模型(如DALL-E 2)着实令人惊叹,但是也有研究表明,这些生成模型可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系。

正巧,PSG数据集标注了基于mask的scene graph关系。作者可以利用scene graph和全景分割mask作为训练对,得到一个text2mask的模型,在基于mask生成更细致的图片。

因此,PSG数据集有可能也为注重关系的图像生成提供了潜在的解决方案。

P.S. 旨在激励领域共同探索全面的场景识别的“PSG Challenge”火热进行中,百万奖金等你来拿!Competition Link: cvmart.net/race/10349/b...
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
脚崴了挂什么科、急急急 linux 解压缩工具--tar命令 生日祝福语闺蜜 简短独特暖心 QQ有哪些隐藏的图标??他们分别是什么??怎么样点亮?? QQ业务的各种图标怎么点亮? qq怎么点亮图标和名字 诗中书万象=求下联 大爱如山藏万象下联 中国电子展:电位器和可调电阻的区别是什么?这四点很明显 电位器的接线方法是什么 电位器的工作原理如何 南洋理工职业学院国家计划任务生要交学费吗 戴隐形眼镜禁忌是什么 vivo X3l能支持内存卡吗?要是能怎么插 vivoX3L怎样扩展内存? vivox3l自带内存为什么显示没有内存卡,还用不了 我是vivox3l的手机我手机动不动就说内存不足百分之七我都急死了手机里... X3L怎样把内存扩展到128G 淘宝上30+的瘦身精油有用吗 求运动外的减肥瘦肚子方式 惠普dv6用高性能显卡玩游戏画面闪烁怎么回事 ATI显卡 高性能 与 高品质 什么区别 进游戏的速度 是否 会不一样 比... i710700f和i710700k区别是什么? 车厘子属于转基因水果吗 铁友火车票上订高铁票可靠吗 在铁友网订了高铁票之后怎么操作啊,第一次网上买,望高手指点。_百度知 ... “米脂的婆姨,绥德的汉”,是个美丽的传说吗,到底有什么来历? 请,晚,前,苹,察,莱,清,闻,养,湖,次那几个字的声调是二声 ...凉,多梦,易醒,少言多虑,心烦,头晕乏力,腰膝酸软是什原因引起的?_百 ... 患者腰膝酸软,浑身无力,头疼,头晕,失眠多梦,胸闷气短是什么原因? 空调记什么科目 日落时分:日本投降全纪录图书信息 找规律:2、5、10、17、26、37……第100个是( ). 南中国海什么时候有仗打 2,5,10,17,26...按规律,问第100个是什么? 1,2,5,10,17,26...第100个数是?第n个数是? 日本留学生选择专业时应该考虑哪些因素? 找规律:1,2,5,10,17,26,。。。第一百个数?第两千八个数?第两千零九个... 2,5,10,17,26...找规律。第50个数为100对吗?如果不对请你把过程及规律... 我想把整个C盘的所有东西备份成一个文件放到移动硬盘里,有什么... 小米路由器突然一直黄灯,无线没信号,路由器后面的恢复出厂也没有用... ...路由器用了五年了,发现路由器中间突然变成黄色了? 股票中线投资一般是多长时间? ...高位后再卖 所以请列出几只熟悉的股票 在什么价位买入 什么价位卖出... 民法典哪些债权不能设定担保 生炒牛肉的做法,生炒牛肉怎么做好吃,生炒牛肉的家常 2023新版是什么意思? 新版人民币意味着什么意思 高数新版旧版是什么意思 新版教科书是什么意思? 新版拼音是什么意思? 次新版什么意思