2024年9月6日,实验室举行了博士生陈鹏的博士学位论文答辩会,陈鹏博士顺利通过博士答辩,获得了博士学位。陈鹏博士的研究方向为自然语言处理、生物医学信息抽取。在博士就读期间,陈鹏博士以第一作者在人工智能、生物医学信息计算领域发表多篇国内外高水平期刊和会议,包括Bioinformatics、TCBB及BIBM,并获得2024届大连市优秀毕业生。陈鹏的博士论文题目是《面向高低资源场景的生物医学信息抽取关键技术研究》,其指导教师为王健教授。论文摘要如下:
作为医学知识传播的主要载体,海量生物医学文献正在以爆炸式的速度增长。如何从海量非结构化的生物医学文本中快速、准确、自动地挖掘出有价值的结构化信息,以辅助生物医学专家加速科学知识的发现,成为当前的主要挑战。受益于算力、算法和大规模标注语料,基于深度学习的生物医学信息抽取已取得了长足的发展,推动了生物医学研究和临床实践的进步。然而,在高资源场景下,依赖大量标注数据的深度学习方法在处理知识密集的生物医学文本时仍然存在一些问题,有待进一步改进。此外,由于高昂的人工标注成本、数据隐私和安全等因素的限制,实际场景中往往难以获得大规模高质量的标注样本,尤其是在医学领域。在低资源场景下,应用传统的深度学习方法通常会导致过拟合,且很难适应新的样本或类别。探索低资源场景下的生物医学信息抽取更具有重要的实际意义。因此,本文在高资源和低资源两种场景下,对生物医学信息抽取中的实体识别和关系抽取这两个关键任务进行了深入研究,主要研究工作体现在以下几方面:
(1)在高资源场景下的生物医学实体识别中,针对现有方法因忽略医学领域知识而无法有效理解文本语义的问题,提出了一种基于知识增强多路匹配阅读机制的生物医学命名实体识别方法。该方法受到人类借助外部工具辅助理解科学文献这一思维方式的启发,将序列标注任务转化为机器阅读理解任务,并引入外部生物医学领域知识,如概念唯一标识符 (Concept Unique Identifiers, CUI)、语义类别和证据片段。为了更有效地融合领域知识,以增强对输入文本的理解,设计了多路阅读匹配机制以自适应地交互融合输入文本、问题查询和证据片段三者的信息。同时,设计了基于Transformer的知识聚合器更好地融合 CUI 和语义类别知识。为精确地捕捉实体边界,还设计了位置意识的指针网络。实验结果表明,本文提出的融合生物医学领域知识的建模方法能够有效地从知识密集的生物医学文本中抽取实体。
(2)在低资源场景下的生物医学实体识别中,针对现有数据增强方法难以有效生成高质量实体丰富的合成数据的问题,提出了一种基于数据增强与对比学习的小样本生物医学命名实体识别方法。该方法首先根据训练文本构建生物医学知识子图,然后利用知识子图中语义相近的邻居节点替换文本中的实体,从而生成多样化、高质量的训练样本。此外,引入问题提示,将生物医学实体识别自然地表述为一个问答任务,并提出了提示对比学习训练策略,通过衡量问题查询与实体之间的互信息,增强模型对实体答案的准确抽取能力。实验结果表明,基于知识指导的实例生成方法明显优于当前基于数据增强的小样本学习方法,引入对比学习训练进一步改善了小样本学习场景下实体识别的性能。
(3)在高资源场景下的生物医学关系抽取中,针对现有联合抽取方法难以有效处理嵌套实体和重叠关系的问题,提出了一种基于句法类型感知图注意力的生物医学关系抽取方法。该方法首先设计了一个边界启发模块,将词性标签作为实体边界的监督信号,利用局部注意力启发式地生成符合语言特征的候选实体跨度。同时,考虑句法依存边和句法依存类型,构建句法类型感知图注意力网络,以建模候选实体跨度内及跨度间的交互,从而更好地捕捉嵌套实体和实体间重叠的关系。实验结果表明,语言学中的词性和句法信息能够有效的提升生物医学关系抽取任务的性能,特别地,句法依存类型中的宾语依存和名词修饰语依存更有益于关系抽取任务。
(4)在低资源场景下的生物医学关系抽取中,针对现有方法在有限标注训练样本下适应新的样本时泛化能力不足的问题,提出了一种基于大语言模型解释学习的小样本生物医学关系抽取方法。该方法首先通过思维链提示和自训练策略,设计了一套基于大语言模型的完整工作流程,用于收集训练样本中标签的推理解释,即文本如何映射到标签的。将这些推理链和标签一起作为训练样本的监督信号。然后,将关系抽取任务转化为生成任务,并基于FlanT5 进行多任务提示微调,以增强模型对输入文本与标签对背后逻辑映射的理解,从而更好地归纳和推理新样本。同时,在预测标签时提高相应的解释。实验结果表明,与现有的大语言模型相比,提出的方法在小样本关系抽取任务上取得了显著性能改进。在推理解释方面,该方法也展示了具有竞争力甚至更为优越的推理能力。