赵迪 远程监督关系抽取
新闻来源:IR实验室       发布时间:2019/4/3 10:52:19

  最近,在关系抽取中一些文章使用一些外部有价值的信息和图神经网络提高模型的性能。今天和大家分享一篇发表在2018EMNLP上的论文。RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information。

1. 引言

在介绍论文之前,我先介绍远程监督关系抽取的定义。由于现实世界中大量的数据都是未标记的,标记大量的数据非常浪费人力和物力,为了缓解这个问题,提出了远程监督关系抽取的方法。如果一对实体在知识库中存在一种关系,则在出现这对实体的所有的句子中,都会将这对实体判定为事先定义的关系。如图1所示:

图1 远程监督关系抽取

Trump和US分别表示两个实体,Trump和US是一种president_of关系,有的句子中只有包含这两个实体都会被认定为president_of关系。

作者认为现有的知识库能够为实体提供一些有价值的信息,而这些信息是很多工作中所忽略的,另外,依存树特征在关系抽取中有着一定的作用,之前的工作都是人工构建的特征,使用图神经网络能够自动构建依存特征。作者的两方面贡献:

(1)Propose RESIDE, a novel method which utilizes additional supervision from KB in a principled manner for improving distant supervised RE.

(2)RESIDE uses GCNs for modeling syntactic information and performs competitively even with limited side information.

 

2. 方法

作者认为实体的类型信息可以帮助模型判别句子关系,例如,Microsoft was started by Bill Gates,Bill Gates的类型信息是person,Microsoft的类型信息是organization,通过这些实体类型信息可以很容易的判别出它们的founder Of Company关系。另一种外部信息是关系别名,关系别名和关系短语的相似度可以为模型提供判别关系的重要线索。图2是如何计算实体的匹配关系框架。

图2 匹配关系图

作者使用图神经网络对句子的依存关系特征进行编码,图神经网络可以丰富句子的结构特征,使模型能够更加容易判别实体关系类别。图3是一个图神经网络的模型框架。

13

图3 图神经网络

下面介绍RESIDE整体框架图,如图4所示。

图4 模型整体框架图

模型的输入首先经过Bi-GRU进行编码,编码后的信息传递到图神经网络进行依存关系计算,计算后的节点和前面Bi-GRU输出的信息进行拼接,拼接后投射的注意力机制层,来提高关键字在句子中扮演的角色。最后输出的所有句子信息在拼接匹配关系向量,在倒数最后一层拼接实体类型信息,然后进行分类。

3. 实验数据

RiedelNYT:Constructed by aligning Freebase relations with NYT corpus,53种关系。

GIDS (Google IISc Distant Supervision):Constructed by extending Google RE corpus,5种关系。

4. 实验结果

下面展示在两个数据集上的实验结果:RESIDE achieves higher precision over the entire recall range.

 

Ablation Study:





从上图可以看出外部信息对模型的帮助是很大的。

5. 总结

作者使用外部信息提高模型关系抽取的性能,再配合图神经网络编码句子的依存信息,对句子的结构信息充分学习。

启发:我们可以探索在其他的模型中加入图神经网络,在做特定任务时,了解任务的背景知识信息,可能会帮助我们发现更多有价值的信息。

参考文献

[1] Kipf, Thomas N.,Semi-Supervised Classification with Graph Convolutional Networks. ICLR(2017)

[2] Shikhar Vashishth., RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information. EMNLP (2018).