这是 UIUC Zifeng Wang 等发表在 ICLR'24 上的论文。
论文题目:
BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs
论文链接:
在生物医学研究领域,一直以来,基础模型(Foundation Models,简称FMs)大多局限于单一模态的数据处理,比如仅仅专注于蛋白质序列、小分子结构或者是临床数据分析。这种单模态的处理框架虽然在特定任务上表现出色,但在应对多样化的生物医学数据时,其潜能却受到了限制。
▲ 几种构建多模态模型的方法:CLIP,ImageBind,BioBridge
传统的多模态方法,比如大名鼎鼎的 CLIP 模型[1],大多建立在配对的多模态数据上。比如,如果我们要训练一个蛋白质-文本模型,就需要收集大量的蛋白质序列和其对应的文本描述,从而做对比学习。这一类工作有很多,比如在 x-rays 和临床笔记上做对比的 MedCLIP[2],在文本和蛋白质上做的 ProteinDT[3],在文本和分子上做的 MolT5[4],等等。
但是,假如我们有超过两个模态,比如有三个模态 A,B,C,在这种思路下,我们就需要三种配对数据,AB, AC, 和 BC,才能训练一个三塔的多模态模型。当存在更多模态的时候,这种对于数据的需要是排列组合式增长的。这就使这种配对数据的思路很难用于超过两个模态的情况。
ImageBind[5]是 Meta AI 提出的一种用来构建多模态检索模型的一种方法。其本质是选择一个模态作为中间模态,比如图片,然后让其他模态的模型都向图片模态靠拢。在这情况下,假设我们有一个中间模态 A,还有另外两个模态 B,C,我们就需要收集 AB 和 AC 两种配对数据。在这种情况下,ImageBind 一共需要 (模态数-1)个数的配对数据,而且需要更新 (模态数-1)个模态的编码器来构建多模态系统。
本文提出用知识图谱(KG)来作为多模态数据源,从而将独立训练的单模态基础模型桥接(Bridge)成一个能够处理多种数据模态的系统(Multimodal FM)。
单模态的数据往往比多模态数据的数量要大的多。我们可以收集到超过 2.5 亿个蛋白质序列或者 15 亿个分子结构,但是只能收集到 44 万个蛋白质文本对。大模型的缩放原理告诉我们,基础模型需要“大”数据才能产生所谓的 emergent ability。所以我们更容易训练出很好的单模态模型,却不容易从零开始训练出一个多模态模性。
在这种思路下,我们希望能够在训练好的单模态基础模型的基础上,去把它们合并在一起去作为一个多模态的系统。这就产生了这篇文章里提到的 “bridge” 的概念。
KG 存在许多三元组,比如(蛋白质 A, associated with,疾病 B)。这样,我们希望能够用一个单模态的蛋白质模型去编码蛋白质 A,然后设计一个关系模型取编码 “associated with”,将蛋白质 A 的embedding 映射到疾病的 space 里。这样,我们可以匹配由蛋白质 A 生成的 embedding 和疾病 B 的 embedding,做到跨模态检索。
通过 BioBridge,不同类型的生物医学数据能够实现无缝交互和转换,而且这一切都不需要对原有的单模态模型做任何调整。
这里放一小部分结果,更多的结果在原文可见。
这里我们是用 BioBridge 来根据输入的文本,检索相关的蛋白质,再用蛋白质+文本去 prompt Galactica 生成分子模型。这里的思路是利用 BioBridge 来构建一个多模态的 RAG 系统。本文发现加上 RAG 的 galactica 能够更好地生成符合输入文本描述的分子。
原文链接: