近日,实验室举行了博士生赵颖闻的博士学位论文答辩会,赵颖闻博士顺利通过博士答辩,获得了博士学位。赵颖闻博士的多项研究成果发表在JBHI,BIBM,TNB等国内外知名期刊和会议上。赵颖闻博士的论文题目是《基于特定领域知识的蛋白质功能预测研究》,其指导教师为杨志豪教授。论文摘要如下:
蛋白质功能预测是生物信息学中的一项核心任务,在阐明疾病机制和发现药物靶点等领域具有重要意义。随着生物知识的不断累积和计算模型的迅速发展,依托特定领域知识的蛋白质功能预测计算方法相继涌现。其中,功能标签语义知识、蛋白质特征知识和功能注释知识是影响预测精度的主要因素。然而,现有研究在挖掘这些知识资源的生物学内涵方面存在不足,制约了预测性能的进一步提升。本研究旨在深入分析并解决上述每种知识使用过程中所面临的问题,依托深度学习模型作为关键技术手段,以提升蛋白质功能预测准确性为最终目标,开展基于特定领域知识的蛋白质功能预测研究。其核心内容涵盖以下三个方面:
(1)对新发现的只有序列信息的蛋白质进行功能预测时,针对现有方法忽略了不同信息来源之间的功能标签语义差异性问题,本文提出了一种基于功能标签多语义知识指导的蛋白质功能预测方法。该方法使用已知的功能注释和基因本体结构信息构建了不同的语义空间,并采用多角度图卷积模型全面学习不同层面的标签语义知识表示。此外,该方法还结合预训练语言模型,自动地从原始蛋白质序列数据中获取序列特征表示,并在功能标签语义知识的指导下进行蛋白质功能预测。实验结果表明,所提出的方法能够有效区分功能标签语义知识的差异性,并在标签语义指导下提高预测的准确性
(2)对已获得氨基酸序列和相关生物医学文献的蛋白质进行功能预测时,针对现有方法存在蛋白质特征知识提取和融合策略不佳的问题,本文提出了一种基于自适应特征融合的蛋白质功能预测方法。该方法首先采用了不同的预训练语言模型提取器去分别获取蛋白质序列和生物医学文献特征表示,不仅高效地提取生物特征知识,而且提高了基于序列和生物医学文献的预测性能。为了改进融合策略,该方法结合了一种交叉注意力机制,能够自适应地捕捉不同信息之间的深层次知识交互,增强蛋白质功能的预测表现。实验结果表明,所提出的方法可以更好地融合蛋白质序列和生物医学文献知识,极大地提高了预测精度。
(3)对功能部分缺失的蛋白质进行功能注释补全时,针对现有方法忽略了少量但信息量丰富的负功能注释知识(即蛋白质不执行特定功能)的问题,本文提出了一种基于多元知识整合的蛋白质功能预测方法。该方法首先构建一个异构图,整合蛋白质相互作用网络、基因本体结构以及正负功能注释等多元信息。然后,该方法利用异构图注意力机制学习蛋白质和功能标签知识的嵌入表示,并重构蛋白质功能标签关联从而对未观察到的功能注释进行评分。实验结果表明,将这些负注释信息整合到异构图的构建过程中,有助于进一步提升预测性能。