近日,实验室举行了博士生宁金忠的博士学位论文答辩会,宁金忠博士顺利通过博士答辩,获得了博士学位。宁金忠博士的多项研究成果发表在ACL、IJCAI等国际顶级会议上。宁金忠博士的论文题目是《文本与语音及其混合模态的信息抽取技术研究》,其指导教师为孙媛媛教授。论文摘要如下:
信息化时代催生了文本与语音数据的爆发式增长,为信息抽取领域带来新挑战与机遇。本文深入研究了面向文本与语音数据的信息抽取技术,通过理论探讨与算法优化,旨在提升抽取的准确性和效率,支撑复杂数据环境下的智能应用。本研究聚焦于命名实体识别、关系抽取及事件抽取这三个核心信息抽取任务。
(1)对于文本命名实体识别任务,首先针对中文命名实体识别任务面临的数据稀缺和资源不足的问题,本研究提出了一种基于双语信息融合的中文命名实体识别方法,采用基于全局稀疏注意力机制的交叉注意力融合双语信息。实验结果表明,该方法通过有效融了双语信息显著提升了性能。同时,针对目前大多数生物医学命名实体识别方法细粒度语义信息利用不足的问题,本研究提出了一种基于多模态方法的字符特征增强方法来充分利用不同粒度的语义信息。实验结果表明,该方法有效提升了生物医学命名实体识别方法的性能。
(2)对于面向语音和文本的命名实体识别任务,针对当前大多数方法仅支持单一模态数据输入的问题,本研究创新性地提出了一种生成式混合模态命名实体识别方法,该方法能够有效处理语音或文本数据。本方法利用不同模态的数据进行联合训练,并结合实体感知的文本生成任务来实现实体的抽取。实验结果表明,通过充分挖掘不同模态数据之间的互补性,该方法不仅显著提升了语音及文本各模态数据下命名实体识别的性能,同时也增强了模型在不同模态间的通用性。
(3)在关系三元组抽取任务中,首先针对文本中嵌套三元组抽取的难题,本研究首先提出了一种基于目标检测框架的文本关系三元组抽取方法。该方法通过引入关系负采样策略和基于关键点的三元组区域检测方法来充分地利用实体的跨度信息。实验结果表明,本方法取得了较好的性能,且能有效抽取嵌套关系三元组。同时,针对语音关系三元组抽取任务中存在的标注数据稀缺且利用不充分问题,本研究提出了一种基于潜在关系提示的多视角生成目标集成方法,其中潜在关系预测模块为解码器提供潜在关系提示信息,而多视角集成策略有效缓解了数据稀缺问题。实验结果表明,该方法显著提升了语音关系三元组抽取的性能。
(4)在文本事件抽取任务中,针对嵌套与重叠事件抽取的难题,本研究提出了一种基于目标检测框架的一阶段嵌套与重叠事件的抽取。该方法通过引入事件元素的类型和跨度检测等辅助任务,配合高效的事件标注和抽取策略,显著提升了模型对事件元素实体的边界信息感知能力。实验结果表明,该方法充分利用了事件元素的跨度信息,和已有方法相比提升了模型在嵌套与重叠类型事件抽取任务中的性能。