王二妞 实例层对抗训练远程监督关系抽取去噪
新闻来源:IR实验室       发布时间:2019/3/28 13:31:07

1  背景介绍

这篇论文是由刘知远团队发表的,主要任务是实例层,使用对抗训练的方法对远程监督关系抽取进行去噪。现有的依赖于远程监督的神经关系抽取(NRE)模型,存在标记错误的问题,本文提出了一种新的基于实例的对抗性训练机制来缓解噪声问题。与以往的去噪方法相比,本文的方法能够更好地将信息实例与噪声实例区分开来,而且该方法也适用于各种关系抽取架构,高效且灵活。

1.1   相关工作

1.1.1            远程监督

远程监督方法由M Mintz于ACL2009上首次提出,与传统预先定义关系类别不同,远程监督通过将知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。远程监督方法的提出主要基于以下假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。如下图所示,“Bob”,“New York”在 Freebase中存在 “Place Of Birth”的关系,则包含这两个实体的非结构文本“Bob lived in New York”、“Bob was born in New York”、“Bob traveled to New York”可以作为训练正例来训练模型。

这类数据构造方法的具体实现步骤是:1. 从知识库中抽取存在关系的实体对;2. 从非结构化文本中抽取含有实体对的句子作为训练样例

远程监督的方法虽然从一定程度上减少了模型对人工标注数据的依赖,但该类方法也存在明显的缺点:1. 假设过于肯定,难免引入大量的噪声数据。如 “Bob traveled to New York”这句话中并没有表示出“Bob”和“New York”之间存在“Place Of Birth”的关系。2.数据构造过程依赖于 NER 等 NLP 工具,中间过程出错会造成错误传播问题。

针对这些问题,目前主要有四类方法:(1)在构造数据集过程中引入先验知识作为限制;(2)利用指称与指称间关系用图模型对数据样例打分,滤除置信度较低的句子;(3)利用多示例学习方法对测试包打标签;(4)采用 attention 机制对不同置信度的句子赋予不同的权值。

1.1.2            对抗训练

生成式对抗网络GAN(Generative Adversarial Nets)是用对抗方法来生成数据的一种模型。和其他机器学习模型相比,GAN引人注目的地方在于给机器学习引入了对抗这一理念。GAN 是生成模型的一种,生成模型就是用机器学习去生成我们想要的数据,正规的说法是:获取训练样本并训练一个模型,该模型能按照我们定义的目标数据分布去生成数据。autoencoder自编码器,它的decoding部分其实就是一种生成模型,它是在生成原数据。又比如seq2seq序列到序列模型,其实也是生成另一个我们想要的序列。Neural style transfer的目标其实也是生成图片。

GAN 的核心思想源于博弈论的纳什均衡。参与游戏的双方分别为一个生成器(Generator)和一个判别器(Discriminator),生成器捕捉真实数据样本的潜在分布, 并生成新的数据样本; 判别器是一个二分类器,判别输入是真实数据还是生成的样本。为了取得游戏胜利, 这两个游戏参与者需要不断优化,各自提高自己的生成能力和判别能力,这个学习优化过程就是寻找二者之间的一个纳什均衡。

GAN是一种二人零和博弈思想(two-player game),博弈双方的利益之和是一个常数。GAN的计算流程与结构如下图所示:

这里写图片描述

1.1.3            创新点

目前,已经出现了很多去除远程监督关系抽取噪声数据的方法,如构建特征、使用多实例多标签学习方法、注意力机制等。这些方法在RE方面取得了显著的改进,但效果还是不能令人满意。主要原因是,大多数去噪方法都是简单地以无监督的方式计算每个句子的软权重,只能粗略地区分信息实例和噪声实例;此外,这些方法不能很好地处理句子不足的实体。而这篇论文的主要创新是:通过使用生成式对抗训练模型在实例级对噪声数据进行过滤;有的训练数据中抽取本,生成抗的例子,这样可以更好地定位真世界的噪声。由实验结果可知,这种方法使模型的性能更好。

 

2        方法

实例级对抗性训练模型整体框架图如下图所示,模型的总体框架包括一个判别器D和一个采样器S,其中S对不确定集Iu中的对抗性例子进行采样,D学习判断给定的实例是来自确定集lC还是不确定集IU论文中假设每个来自确定集的实例都能正确的表达实体对的关系,相反,在对抗性训练中,来自不确定集的实例不被正确标记。

训练过程是一个最大最小优化问题,目标是希望对于来自正例中的数据判别器能给出一个较大的值;对于来自采样器的数据,判别器给出一个较小的值,公式如下所示:

pc是确定数据概率分布

pu是混淆概率

S根据概率分布pu从不确定数据中抽取对抗性样本,

经过充分的训练,采样器倾向于对不确定数据中的信息性实例进行采样,而不是对噪声实例进行采样;

判别器成为对噪声数据具有良好鲁棒性的关系分类器。

2.1     实例编码器

在一个包含两个实体的实例中,本篇论文使用了几个神经网络架构将句子编码成连续的低维嵌入y,希望能够捕捉到两个实体之间标记关系的隐含语义

2.1.1            输入层

输入层的目标是将离散的语言符号映射到连续的输入向量中。给定一个包含n个单词的实例s{w1 , …,wn},通过使用Skip-Gram将所有单词嵌入到kw维空间中。对于每个单词wi,论文将其相对于两个实体的距离嵌入到两个kp维向量空间中,然后将它们拼接成一个统一的位置向量pi。最后得到下一编码层的ki维输入向量。

2.2.2  编码层

在编码层,这篇论文选取了CNN (Zeng et al., 2014)、PCNN (Zeng et al., 2015)、RNN (Zhang and Wang, 2015)和BiRNN (Zhang and Wang, 2015)四种典型的架构,进一步将实例的输入输入向量编码为句子向量。

CNN:在输入序列{X1,…,Xn}上滑动窗口大小为m的卷积核,以获得kh维的隐藏向量

然后在这些隐藏向量上应用max-pooling来输出实例y的最终向量表示,如下所示

PCNN:分段式卷积神经网络将隐藏向量根据实体1和实体2的位置分成三段,分别是{h1,…,he1 }、{he1+1,…,he2 }和 {he2+1 ,…,hn},然后在每一段上进行最大值池化,结果如下

将三段的池化结果拼接起来,作为最后的实例向量表示

RNN: RNN是为序列数据建模而设计的,因为它的隐藏状态会随着每个时间 步长相应的输入嵌入而变化。这篇论文使用GRU作为循环单元,最后一步的隐藏向量为最终的输出结果

Bi-RNN:双向循环神经网络目的是将句子序列两边的信息结合起来,隐藏状态包含前向和后向两部分

image.png

仍然是将最后一步的隐藏向量为最终的输出结果:

2.2.3  采样器

采样模块旨在从不确定集中选择最容易混淆的句子,通过优化概率分布pu,十采样器能够尽可能多地欺骗鉴别器。为了选择出最具有混淆性的实例,这篇论文使用混淆概率来判断每个实例的混淆性。

给定了一个实例,首先使用句子编码器将其语义信息表示为向量y,然后使用下面的公式进行打分,得到该实例的混淆分数,其中W是一个分离的超平面:

然后使用softmax函数对混淆分数进行归一化处理得到Pu,计算公式如下所示:

最后采样器从中选择出混淆概率最大的实例作为采样结果,输出给判别器。优化后的采样器将为那些混淆实例分配更大的混淆分数。采样器的损失函数如下式所示:

2.2.4  判别器

在给定实例s及其向量y的情况下,判别器负责判断它的标记关系是否正确。判别器的定义是基于关系和句子向量之间的语义相关性,其判别函数如下所示:

对于来自于确定集中的实例,判别器趋向于给出一个较大的判别分数,对于来自于采样器的实例,判别器趋向于给出一个较小的判别分数,损失函数如下所示:

优化的鉴别器将对确定集中的实例分配高的分数,对不确定集中的实例赋值低。

3        实验

3.1     数据集

这篇论文是在纽约时报语料库的基准数据集上进行的实验,一共包含了53种关系。该数据集是通过将Freebase中的实体对及其关系与NYT语料库进行对齐得到的,数据集规模如下表所示:

3.2     实验结果

在训练过程中,每隔10个训练时点,会在不自信集合中选择信息量最大、最自信的实例来丰富确定数据,参数设置如下:

3.2.1            不同去噪方法实验结果

这篇论文提出去噪方法与基于特征的去噪方法实验结果如下图所示:

从实验结果可以看出,神经模型在整个记忆范围内显著优于所有基于特征的模型。人为设计的特征在嘈杂的环境中性能不是很好,通过神经模型自动学习的实例向量可以有效地从噪声数据中获取隐式关系语义。

3.2.2            不同CNN/RNN去噪方法比较

在不同CNN和RNN编码方法上的各种去噪方法实验结果如图所示:

 

由实验结果可以看出使用对抗训练的去噪方法优于注意力机制方法。这是因为注意力机制只对信息性实例和噪声实例进行粗粒度的区分。与此相反,采用对抗性去噪方法训练的神经模型,生成或采样有噪声的对抗性样本,并强制关系分类器进行克服。因此具有对抗性训练的模型在更细粒度上提供了有效的降噪。此外,还可以看出,从真实实例中采样对抗性实例的方法能够更好地区分信息实例和噪声实例。

3.2.3            不同召回率下的精确度

本篇论文记录了召回率分别为0.1、0.2、0.3和平均值的情况下,不同模型的精确率,结果如下表所示:

由实验结果可知:在相同去噪方法下,复杂神经模型(PCNN, BiRNN)的去噪效果优于简单神经网络(CNN, RNN);AN的性能始终比ADV性能好;去噪方法对性能的提升比更换模型带来的提升更明显;错误的标注问题是阻碍远程监督RE模型有效工作的关键因素。

3.2.4            不同实例数目的实验

为了进一步验证本文对抗性训练方法的有效性,这篇论文评估了AN方法和传统MIL去噪方法在实体对只有几个句子实例的情况下的表现,其结果如下表所示:

实验结果表明对抗训练方法不受假设的限制,即使每个实体对的实例很少,对抗训练方法仍然有效,该方法为远程监测数据的降噪提供了一种更加稳健可靠的方案。

4        总结

这篇论文提出了一种基于实例级对抗性训练的远程监督去噪方法;该方法在更细粒度上实现了有效的降噪,并且显著优于最先进的方法;对于实例较少的实体对,本论文的方法也很健壮。