朱晓旭 GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling
新闻来源:IR实验室       发布时间:2019/7/16 0:00:00

一、引言

当前序列标记任务的最通常的模型是基于递归神经网络(RNN)。但是,由于浅层连接RNN的连续隐藏状态之间的全局信息建模不足,以及RNN变形Bi-LSTM存在高度的非线性,限制了模型的性能。 在本文中,尝试解决这些问题问题,因此提出了一种用于序列标签的名为GCDT的增强了全局上下文的深度过渡架构。即通过加深在句子中每个位置的状态转换路径,并进一步为每个token分配一个从整体中学到的全局词表示。该模型在CoNLL03命名实体识别任务和CoNLL2000句法分割任务取得了较好的结果,此外在引入外部资源预训练模型BERT之后,效果更加明显,因此证明了该模型的有效性。

 

 

二、模型介绍

1)实验模型

     本文中在实验时用到的序列标注编码器和解码器的模型如图一所示:

 

文本框: 图一

 

文中将论文分成三部分,其中第一部分是全局表示的编码器,输入是每个token的字符级别表示和词向量表示,经过L-GRUT-GRU,在经过平均池化层取平均得到全局表示向量;第二部分是序列标注编码器,输入部分是字符级别表示和词向量表示以及上一部分得出的全局向量,同样经过L-GRUT-GRU,分别得到前后向量进行拼接;第三层由序列标注的解码器层,有一个softmax函数组成,得到最大条件概率。

下面对L-GRUT-GRU分别进行详细说明,L-GRUT-GRUGRU的变形,该模型从2019AAAI腾讯AI实验室提出,具体说明如下。

 

(2)GRU

GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门。同样还混合了输入状态和隐藏状态,因此GRU是一个由更新门和重置门组成的高度非线性模型。

图二 

 


具体公式如下: 

 

image.png



(3)L-GRU

L-GRU是增强的线性变换,通过合并其他线性变换来实现GRU动态输入。 在时间步t处的每个隐藏状态计算如下,

 

image.png

 


 L-GRU相比于GRU最大的改变是在计算候选候选隐层状态时加入一个额外线性输入项,所以L-GRU是包含线性输入和非线性输入的变形,优点是在很大程度上保留了输入的线性结构,同时防止梯度消失的出现。

 

(4)T-GRU

     T-GRU是深度过渡块的关键组件。在整个循环过程中,对于当前时间步,一个T-GRU的“状态”输出 用作下一个T-GRU的“状态”输入。 当前时间步长的最后一个T-GRU的“状态”输出将被保留,作为下一时间步长的第一个GRU的“状态”输入。

     也就是说,T-GRU相比于GRU最大的改变是状态转移变换仅仅是隐层状态之间的变换,不包含输入,所以也就在一定程度上加大了转移结构的深度,解决了Bi-LSTM中层次深度比较浅的问题。

 

三、实验结果说明

   论文中选取了两个数据集进行验证,两个数据集分别是 CoNLL03命名实体识别任务和CoNLL2000句法分割任务。实验结果如下,第一个数据集结果在图三,第二个数据集结果在图四。

 

图三


图四

从两个数据集的实验结果也可以发现作者提出的增强全局上下文深度转换模型效果要比之前的baseline模型好,加上外部资源BERT之后,效果更加明显。

四、实验分析

论文主要从三个方面进行消融实验和实验分析。

第一个方面是考虑由全局文本表示的向量编码器得到的全局向量应该添加的位置,文中分别将其从序列标注的编码器,序列标注的解码器以及softmax的输入考虑,其实验结果如下,

由于在编码器的高层模型更多是学习到语言模型的语义结构,在低层模型更多的学习到语言模型的语法结构,同时由于全局向量在高层会由于相似的特征空间给模型带来噪音,因此在序列标注任务中,将全局文表示向量放到模型编码器最开始输入中效果最好。

第二个方面是考虑不同的特征之间以及GRU和文中使用的GRU变形之间的对比,实验结果如下,

由实验结果也可以看出词向量特征对模型影响最大,而且大多数情况下,文中的DT模型要比传统的GRU性能要好。

第三方面是外部资源BERT中的层数,池化层的方式做对比,结果如下,

可见,BERT选择LAGER类型,层数为18层,池化方式选择平均池化时效果自最好,原因是BERT本身对大规模预料有很好的学习归纳能力,同时平均池化在稀有性词汇上提供更好的此表示。

五、总结

论文在序列标注任务中提出了一种增强全局上下文表示的深度转换的模型方法,解决了传统RNN以及Bi-LSTM的高度非线性和状态转换时出现的梯度消失问题,并且证明了该方法的有效性。本文的创新点第一点在于使用了传统GRU模型的变形L-GRUT-GRU,第二个创新点在于将全局上下文表示和词向量以及字符向量拼接作为词输入,可以更好的进行词级别表示,进而增加了实验的精度,提高了F值,这个结构解决序列标注问题应该是一个很好的导向模型。