宋雅文 Neural Entity Reasoner for Global Consistency in Named Entity Recognition && Zooming Network
新闻来源:IR实验室       发布时间:2019/3/28 13:04:13

  1.      引言

深度好奇实验室遵循融合神经网络和符号智能的原则,只针对不同类型的自然语言理解任务设计了一系列的模型,这里介绍两篇相关论文:(1)神经实体推理:由符号记忆单元为(多层NER)每层NER决策提供建议。(2)变焦神经网络:利用决策网络灵活地选择特定文本力度(字、句、段)上执行读取、更新、跳转、预测等一系列操作,适合应用于各类长文本处理任务。其中变焦神经网络模型的第三部分就是神经实体推理中候选池的实现

2.      全局一致的实体推理

2.1   前言

目前的方法做预测都是基于输入序列的词表示进行计算,因此是依赖于训练集语料的局部语义特征。人类阅读过程中,阅读不仅仅基于一个词的信息,还会通过浏览全文将全文与局部信息进行联系整合来理解词义。受此启发,作者提出高水平的NER任务推理机制,名为NER Reasoner NER Reasonner 是一个多层结构,每一层独立实现NER任务,每层的实体识别结果将会保存到一个候选池,作为下一层NER推理的外部引用。推理候选池有一个特殊的神经网络实现,叫做多事实推理模型,通过推理保持全局一致性。

2.2 局部决策

全局一致是与局部决策想对应的,Collobert 2011年提出CNN-CRF结构,这种结构可以看做编码解码结构。此后的工作都是基于此模型的改进,改进大概有三个方向:

1)改进CNN编码器:生成句子表示;

2)改进CRF解码器:根据句子表示做预测;

3)改进词表示。

其中一种改进是两次过解码器,与本文的想法一致。文章(A Local Detection Approach for Named Entity Recognition and Mention Detection)中第二层解码器学习第一层(本文下一层解码器学习上一层)。一个句子和一个关键字片段[],片段外的任何已经预测出来的实体都会用它的实体类型代替。

2.3   实体推理机模型

模型是一种多层结构,每层是独立的编码器-解码器结构。输入序列编码为向量表示(词表示和上下文信息),解码器根据向量表示给出预测。既然解码器可以根据编码向量预测标记某些词为实体,那么有理由相信,可以从预测结果中找到实体表示的信息。

整个NER过程中都有一个候选池,保存着上层识别的实体结果。模型逐层NER,可以在推理过程应用候选池中的识别结果,同时将该层预测结果更新到候选池中,帮助下层NER保持全局一致性,从而得到更好的识别结果。候选池只有在每层NER识别结束才会更新,很像记忆存储单元,更新操作取决于预测结果,是符号信息。

这里有两点需要注意:

1)既然解码器能够根据词表示来决定哪个词是实体的开始词,哪个词是实体的结束词,那说明经过BiLSTM产生的词表示中一定包含着实体的信息。

2)本模型不关心候选池中哪个实体和当前词的相似度高,关心的是候选池中是否存在与当前词相关的实体,所以进行了最大池化,帮助候选池给出最有用的推荐。

2.1 实体推理机模型

 

2.4   推理实现

本文选择的模型是普通的CNN-BiLSTM-LSTM实体识别模型。

2.2 推理过程

2.4.1候选池

由人类阅读习惯,作者将候选池中实体进行划分。由于编码器由BiLSTM实现,那反过来对于每个已经识别出来的实体,各自解释其前向和后向LSTM,获得四个表示。所有实体的表示拼接在一起就组成了四个矩阵,存放在候选池中。通过计算当前词和已经识别出来的实体之间的相似度,候选池可以给出当前词的推荐分数,作为候选池提供给推理过程的外部信息。计算方式如下:

 

2.4.2训练过程

每一个实体推理层都有自己独立的预测结果,这些预测结果会影响下一层的预测。实际上,这是一个协同训练的过程。为了实现真正的端对端,我们的模型所有层使用同一套参数。

2.5   实验

2.5.1数据集

1CoNLL-2003 English NER dataset

2Chinese court judgment dataset

2.5.2实验结果

2.3 CoNLL-2003 实验结果(上)法庭审判中文数据集实验结果(下)

2.6   结论

 

1)实体推理机能够模仿人类阅读过程,实现全局一致的命名实体识别;

2)符号化概念的提出是的推理过程更加高效;

3)该实体推理模型中相似度计算的应用不总是可靠的,所以需要针对具体任务进行改进。

3.      Zooming Network

3.1   前言

3.1.1自然语言特性

1)段落文本是字母或者字符的有序序列

2)高层语言单元是低层语言单元的任意数量的组合;相应的,局部语义信息构成更复杂的表达;因此,与图像信息不同,文本信息更加离散化和符号化。

3.1.2传统模型缺陷

1)当段落文本结构复杂时,存在更多的复杂依赖,而目前的神经网络模型就无法建立合适的表示;

2)缺乏动态利用不同级别的信息来实现更加高效的记忆;

3)输出每一个时间步进行一次标注很低效没有必要,处理长文本的时候浪费时间。

3.2 变焦网络模型

在变焦网络的编码器-推理机-解码器架构中,分级编码器将一个文件映射成为一个分级表示,每个语言单元有一个对应的分布式记忆时隙。控制器通过随机策略阅读部分先前生成的记忆单元,输出预测序列。符号推理机给控制器提供一些符号化线索。模型三部分分别是:

1Text-Encoder(文本编码器):构建文档的分级表示;

2Zooming-Controller(变焦控制器):读取多级信息和通过决策网络实现标注;

3Symbolic Reasoner(符号推理机):原理同上篇文章相同。

3.1 变焦网络模型

3.2.1 文本编码器和变焦控制器

3.2 文本编码器模型(左)和变焦控制器(右)

3.2.2自定义规则:

1)阅读头: 共有三个阅读头,分别对应分级表示中的词、句子和段落级别;

2)位置向量: 向量

3)动作: 生成标签的动作,包括动作级别和动作类型;

4)动作级别: 分为词级别、句子级别和段落级别;

5)动作类型:基于分级机制的BIO标注标准,共有九种标签;

6)前一个动作向量:向量

7)执行动作:执行对应级别和对应类型的标注动作;

8)跳跃规则:

如果是词级别动作,则词级别阅读头移动到下一个词,其他两个阅读头根据当前词所在位置进行移动。如果是句子级别动作,句子级别阅读头首先跳转到下一个句子,然后词级别阅读头跳转到下一个句子的第一个词;段落级别的阅读头根据下一个句子所在的段落位置决定是否跳转以及跳转到那个段落。如果是段落级别的动作,则段落级别阅读头跳转到下一个段落,词级别和句子级别的阅读头跳转到下一个段落的第一个词和第一个句子。

9)处理路径: 词级别阅读头的移动位置历史轨迹;

10)动作历史: 动作执行历史记录。

3.3 向量的九种状态(左)和示例(右)

3.3 变焦实现

3.3.1变焦

1)初始化:

2)预测:

3)执行:

4)更新:

更新后循环执行(2)(3)(4)知道整个文档全部处理结束。

3.3.2学习

变焦网络要求能够实现当当前文本片段和目标信息关联不紧密时粗读,而当当前文本片段与目标信息密切相关时进行精读。换句话说,变焦网络必须能寻找到有效的处理路径,同时保证准确度。作者使用有监督学习保证准确度,利用强化学习鼓励模型执行高级别标注动作,如下所示:

1)有监督学习:。这是调整后的铰链损失函数,最小化标准答案和预测答案之间的距离。

2)路径奖励机制:。由此公式我们知道高级别动作获得的奖励更高,即整个机制鼓励尽可能多得执行高级别动作,主要目的是提高效率。

3.4实验

3.4.1数据集

法律文件的事件抽取实验和法律文件的焦点抽取实验

3.4 法律文件的事件抽取和法律文件的焦点抽取实验

3.4.2评价方式

1PRF:实体或者片段级别的PRF

2)词级别的动作占比:

3.5 实验结果

3.5   结论

1)表示直接对应于语言结构,ZN可以在建立复杂长距离依赖关系过程中准确地整合多级信息;

2)高级别标注动作显著减少决策和决策信息源之间的时间步,甚至为梯度反向传播找到捷径;

3)变焦网络的整个处理过程和一般的网络相比更加高效,因为它能根据文本信息自行调整,信息集中片段细读,信息量较少片段粗读(可视化展示如图3.6)。

3.6 可视化结果展示