2020年9月7日实验室举行了博士生刁宇峰的线上博士答辩会,刁宇峰博士顺利通过博士答辩,获得了博士学位。刁宇峰博士期间取得了丰硕的研究成果,多篇科研成果发表于中国计算机学会CCF推荐的A、B类顶级会议,博士论文题目是《双关语识别与生成关键技术研究》。论文摘要如下:
双关语是一种用来描述和理解词义歧义的主要方式, 主要利用词的多义和同音的条件从而达到语句具有双重意义的目的,可使语言表达更为含蓄、幽默,给人以深刻印象。双关语不但是一种语言现象,也是一种隐式情感表达方式。 近年来,随着互联网及其技术的不断发展,微博、推特、论坛等社交媒体成为全球最大规模的公共数据源,双关语文本出现在更加多元化的社交媒体平台上,得到了研究学者们更广泛的关注。因此,人们迫切需要利用自然语言处理技术处理双关语信息。双关语研究旨在赋予计算机像人类一样分析双关语的能力,是一项富有挑战的研究课题。
针对目前国内外双关语研究中语义信息利用不足、外部资源利用不充分等问题,本文深入研究双关语的语言学现象和表达特点,展开双关语识别研究、双关词定位研究和双关语生成研究, 具体完成的工作主要如下:
(1) 对于双关语识别任务,双关语从类别上分为语义双关语和谐音双关语,首先针对语义双关语中由于词的多义引起的歧义问题, 深入挖掘语义双关语的语言特性, 提出了一种基于上下文表示的门控注意力机制语义双关语识别模型, 该方法通过引入不同的语言环境中使用上下文语义表示来解决语义双关的一词多义性。另一方面, 针对谐音双关语中由于词的同音引起的歧义问题, 深入挖掘谐音双关语的语言特性, 提出一种融合发音和拼写的注意力机制谐音双关语识别模型,通过发音和拼写的语义表示向量解决谐音双关语的歧义问题。实验表明,上述提出的双关语识别方法超过了现有基于人工特征的分类模型及主流的深度学习模型。
(2) 对于双关词定位任务,首先根据相关的语言学理论, 从语义双关语的语义特性出发, 考虑到低维分布语义空间和外部语义资源提供的同义词信息, 提出了一种基于多维语义关系和语义相似度匹配的语义双关词定位算法来实现语义双关词的定位。 另一方面, 深入挖掘谐音双关词在双关语中的表达方式, 以命名实体的框架为基础,构建融合字符、音素、词性、位置、词等级别的细粒度语义表示,提出了一种基于细粒度语义表示和 BiGRU-CRF 的谐音双关词定位模型。 实验结果表明,上述的双关词定位方法均获得了比目前先进的方法更好的结果,能有效定位双关词。
(3) 对于双关语生成任务,针对语义双关语生成任务大多依赖模板或者规则,生成的语义双关语缺乏质量和多样性,提出了一种基于歧义性和流畅性的语义双关语生成对抗模型, 该模型由生成器、判别器组成,生成器由层次 ON-LSTM 注意力机制构成,判别器通过语义双关词及其不同的词义判断是真实文本还是生成文本,通过层次的奖励机制和强化学习模型训练生成器,用以生成具有歧义性和流畅性的语义双关语。 另一方面,生成的谐音双关语缺乏上下文语境,提出了一种基于语境理解和语义修正的谐音双关语生成方法,包含语境理解模块和语义修正模块两个部分,前者包括局部语境理解和全局语境理解两个部分,后者首先通过预训练模型作为生成器生成谐音双关语,然后构建谐音双关语分类器获取激励得分,通过强化学习机制优化生成的文本。 实验结果表明所提出的方法能够有效地进行语义双关语和谐音双关语的生成,本文对双关语生成任务进行了有效的尝试。