PRGC Potential Relation and Global Correspondence Based Joint Relational Triple Extraction

1. 引言

本文讲关系抽取任务分解为关系判断、实体提取和subject-object对齐三个子任务，提出了一种基于潜在关系和全局对应的联合关系三元组抽取框架(PRGC)。具体而言，首先设计一个预测潜在关系的组件，将后续实体提取限制在预测的关系子集上，而不是所有的关系；然后用特定于关系的序列标记组件处理subject-object之间的重叠问题；最后设计一个全局对应组件来以较低的复杂度将主客体对齐成三元组。在两个公共数据集上达到了新的SOTA。

2. 创新点

关系抽取是从非结构化文本中识别(subject，relation，object)三元组。本文将其分解为三个子任务：1.关系判断：识别句子中的关系；2.实体提取：识别句子中的subject和object；3.subject-object对齐：将subject-object对齐成一个三元组对于关系判断：本文通过组件来预测潜在关系，而不是保留所有的冗余关系，这降低了计算复杂度，取得了更好的性能，特别是在实体提取方面。在实体提取方面：本文使用了一个更健壮的组件(简称Rel-Spec Sequence Tag)来分别提取subject和object，以自然地处理subject和object之间的重叠。对于subject-object对齐：本文设计了与一个关系无关的全局对应矩阵来判断特定的subject-object对在三元组中是否有效。在给定句子的情况下，PRGC首先预测潜在关系的子集和包含所有subject-object之间对应分数的全局矩阵**；然后进行序列标注，并行地提取每个潜在关系的主客体**；最后枚举所有预测的实体对，然后通过全局对应矩阵进行剪枝。

3. 问题描述

首先是对关系三元组的描述。所有关系三元组的集合可以看作{π = (h, r, t) | h, t ∈ E, r ∈ R}，其中h是头实体，t是尾实体，r是这两个实体之间的关系。然后我们需要对文中的所有句子进行一个定义。代表一个句子，其中是指第i个词。模型的目标是从句子S中识别出所有存在的三元组π。

4. 方法

给定句子S SS，首先预测句子中可能存在的潜在关系的子集，然后只需要提取用到这些潜在关系的实体。给定n个tokens的句子嵌，该潜在关系预测的每个元素为：其中A v g p o l l AvgpollAvgpoll是平均池化操作本文将其潜在关系预测建模为一个多标签二进制分类任务，如果概率超过某个阈值

则为对应关系分配标签1，否则将对应的关系标签置为0；接下来只需要将特定于关系的序列标签应用于预测关系，而不要预测全部关系。组件获得了描述的潜在关系的几个特定于关系的句子表示。然后，模型执行两个序列标注操作来分别提取主体和客体。作者之所以将主语和宾语分开提取，是为了处理一种特殊的重叠模式，即主语宾语重叠(SOO)。作者放弃了传统的LSTM-CRF网络，而采用了简单的全连接神经网络进行实体关系识别。在序列标注之后，分别获得关于句子关系的所有可能的主语和宾语，然后使用全局对应矩阵来确定正确的主语和宾语对。应该注意的是，全局对应矩阵可以与潜在关系预测同时学习，因为它独立于关系。具体过程如下：首先枚举所有可能的subject-object对；然后在全局矩阵中检查每对subject-object对的对应分数，如果该值超过某个阈值则保留该分数，否则将其过滤掉。

5. 实验结果

先抽取潜在关系再抽取与潜在关系有关的实体最后进行subject-object的对齐会提高模型的解码速度和算力资源。潜在关系预测阈值越高，模型的性能越好三个损失函数的调参是一个工作量问题。如果句子长度太长最后subject-object的对齐工作消耗的空间资源会很大。

【关闭窗口】