2023年6月1日实验室举行了博士生王琰的线下博士学位论文答辩会,王琰博士顺利通过博士答辩,获得了博士学位。王琰博士的多项研究成果发表于国内外知名期刊和会议上,并获得了辽宁省计算机学会2022年学术年会优秀论文一等奖。王琰博士的论文题目是《基于多元深度编码的事件识别和抽取方法研究》,其指导教师为王健教授。论文摘要如下:
随着信息时代的到来,从海量的数据中抽取关键的信息,是各个领域高速发展的必要手段。事件识别是事件抽取的关键基础步骤,是一种粗粒度的信息抽取,旨在从数据中检测并分类具体事件类型;事件抽取是一种更细粒度的信息抽取,旨在从数据中抽取与目标相关的事件信息并以结构化形式呈现的过程。近些年来,对于自然语言处理中的事件识别和抽取研究已经取得了巨大进展,但是目前大部分事件识别和抽取方法依赖于繁琐的构建过程和复杂的特征工程,限制模型的事件识别抽取性能;对于多模态的事件识别和抽取研究目前还处于初级阶段,多模态特征融合方式较为单一,事件识别和抽取性能一般。
本文重点关注新闻领域、生物医学领域以及社交媒体领域的事件识别和抽取方法设计,使用多种Transformer深度编码器,自动抽取文本语义、句法结构、模态共享等多元编码特征,降低事件识别和抽取模型对大规模标注语料和复杂特征工程的依赖,简化识别和抽取过程,增强多模态特征融合能力,提升模型的识别与抽取性能。本文的创新工作如下:
(1) 针对事件识别在文本数据中存在特征工程复杂的问题,本文从粗粒度和细粒度两个角度出发,提出并设计了基于多元Transformer结构的事件识别方法。对于粗粒度事件识别,以端到端的形式自适应编码多元文本表示(即文本的语义和结构表示),削弱了外部工具带来的误差传播,在不识别触发词的情况下直接确定事件类型;对于细粒度事件识别,依靠深度神经网络自动编码多元语义表示(即文本的动态语义和静态语义),先通过识别句子中的触发词来确认触发词类型,再根据触发词类型确定句子中包含的事件类型。在标准生物医学语料和新闻语料上,本文所构建的事件识别模型可以在没有外部工具、外部知识、以及复杂特征工程的情况下,实现较好的事件识别性能,也表明本文的事件识别方法具有泛化性。
(2) 针对事件识别在多模态数据中存在特征融合策略不佳的问题,本文提出了一种多模态交互融合的方法。首先设计了一种权重自适应的图像区域分割算法将图像的像素级特征转换成区域级特征,该算法可以统一图像和文本的语义空间维度,提升图像的语义表示能力以及图像-文本对的语义匹配能力;再结合多层Cross-Transformer编码机制增强图像特征和文本特征的交互能力,实现图像语义与文本语义地深度融合,从而有效地抽取图像-文本对的多模态共享特征,提升多模态数据的事件识别性能。本文在社交媒体危机事件语料上进行广泛的评估,实验结果表明,本文的事件识别方法可以更好地融合图像-文本特征,提高事件分类的准确性。
(3) 针对事件抽取在文本数据中存在级联步骤繁琐的问题,本文提出了一种基于条件概率的联合训练模型,使用多元Transformer结构以端到端的形式自动编码多元文本表示(即文本的语义和结构表示),并通过触发词分类器输出的条件概率分布信息辅助训练事件元素分类器,实现触发词识别和事件抽取模型的联合参数学习。为了更好地证明联合事件抽取方式的优越性,本文同样实现了管道事件抽取方式,依靠深度神经网络自动编码事件的高层表示,并设计相关的过滤规则来提升非端到端事件抽取性能。本文将这两种模型在标准生物医学语料和新闻语料上进行评估与对比,最后的实验结果表明,本文提出的基于条件概率的联合抽取模型,可以更好地简化级联步骤,削弱管道模型带来的级联误差传播,更好地提升嵌套事件抽取的准确率。