李楠 KBGAN: Adversarial Learning for Knowledge Graph Embeddings
新闻来源:IR实验室       发布时间:2019/3/28 13:13:53

  1、介绍

目前的知识图谱的数据通常只包含正样本,但是在训练传统嵌入模型时,不仅需要正例也需要负例,目前训练知识图谱嵌入模型时,经常采用随机采样的方法生成负例。随机采样的方法,主要是通过随机替换正三元组中的头实体,或者尾实体,生成新的三元组作为负例。但是这种方法所生成的负例质量较差。例如,存在正三元组LocatedIn(NewOrleans , Louisiana),采用随机采样方法替换尾实体,产生的负例LocatedIn(NewOrleans , BarackObama),抽取的实体与头部和目标之间的关系完全无关。在这篇文章作者提出了一种基于强化对抗学习的新方法,可以自动生成高质量的负样本。

2、方法

这篇文章主要基于对抗学习,整体模型包括两部分,生成器与鉴别器。生成器与鉴别器可以是TransETransDComplEx等预训练的知识图谱嵌入模型。

生成器(G)通过计算一组候选三元组的概率分布,生成一个负三元组,然后将获取的负三元组作为输出,鉴别器(D)的输入为生成器所产生的负三元组以及以及正三元组,计算它们的分数,然后将得到的分数作为reward反馈给生成器,用于帮助生成器优化,生成更优质的负例,同时鉴别器通过marginal loss进行优化。这一部分可以看作为一个强化学习的过程,其中生成器作为agent,鉴别器作为environment。这篇文章的工作与GAN中主要区别在于,GAN中的目标是训练一个好的生成器,而在本文中是训练一个好的鉴别器。下表为该方法的整体算法流程。

3、实验

这篇文章在FB15K以及WIN18上进行了实验,通过使用这个模型产生负例,所获取的结果大多数优于之前的方法。

下表中第一列为正三元组,加粗字体为要替换的三元组,分别采用随机抽样和KBGAN的方法获取被替换的实体,其中斜体字代表与被替换实体存在语义关系,可以看出采用这篇文章中所提出方法的效果优于随机抽样的方法。

5、总结

论文中提出了基于强化对抗学习的方法获取知识图谱的负例,取得了很好的成果,本文主要的创新点,在于使用对抗学习的方法来获取知识图谱负例,与随机采样不同,生成器生成的负例质量较高,这使得鉴别器模型能够更好训练。同时为了实现对生器的优化,引入了强化学习的方法来连接两个模块。