引言
基于知识图谱嵌入的方法在实体对齐领域取得了巨大成功。本文以生成模型的视角重新解构了目前实体对齐方法的范式,展示了其与生成模型间的相似之处,并从理论上揭示了现有的基于生成对抗网络的方法的局限性。通过引入新的互变分自编码器(Mutual-VAE)作为生成模型,本文构建了一个生成式实体对齐框架(GEEA)。GEEA实现了知识图谱之间的实体转换,并且能够从随机噪声中生成新的实体。通过理论分析、实体对齐实验,以及实体合成实验等,系统地展示了生成模型在实体对齐及实体合成任务上的强大能力。
背景
实体对齐的结果往往被用于丰富不同的知识图谱,但不同的知识图谱中通常存在一些目标知识图谱中没有的实体,这些实体被称为“悬挂实体(dangling entity)”。如果可以将这些实体从源知识图谱转换到目标知识图谱,将在许多任务中节省大量时间和精力。
从随机变量生成新实体可以应用到多个新兴领域,如元宇宙、游戏、剧本设计等。在这些领域中虚拟角色仍依赖于手工编写或随机算法,而丰富、相互联系的角色对构建沉浸式虚拟世界至关重要。这些内容可以利用知识图谱来存储,并通过实体合成生成新的具有丰富关系的角色信息。
方法
如下图所示,本文设计的生成式实体对齐框架可分为5个模块:
实验
如下图所示,在多个实体对齐数据集上,引入了生成目标的GEEA显著优于其他方法。
同时,在实体合成结果上,本文所提出的GEEA也要优于一些生成模型或是生成模型与实体对齐模型的结合:
下表展示了一些实体合成的结果,其中输入的源知识图谱实体在目标知识图谱中并不存在。可以看出,GEEA所生成的属性和邻居甚至包含了一些原本知识图谱中并不存在但正确的内容。对于图片信息,由于目前方法均采用预训练的图片向量而非引入视觉模型的缘故,在GEEA中直接取距离最近的目标知识图谱图片作为输出。
总结
本文对如何利用生成模型进行实体对齐与实体合成进行了理论分析,并提出GEEA来解决现有基于生成模型方法的局限性。实验证明,GEEA在实体对齐和实体合成任务均较现有方法有着显著优势。未来工作将专注于设计新的多模态编解码器以进一步增强模型的生成能力。
作者: