场景图知识增强多模态结构化表示能力

场景图知识增强多模态结构化表示能力

一、引言视觉语言模型,VLMs,已在多种多模态理解和生成任务中展现了显著的性能表现,然而,尽管这些多模态模型在广泛的任务中表现出色,但是它们能否有效地捕获结构化知识,即理解对象间关系以及对象与其属性间关系的能力,仍然是一个未解决的问题,如图......
admigg 11-15
544 350 556