生物信息学是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
我们研究生物信息学的角度是从生物医学领域文献的检索、分析和挖掘发现生物医学的隐含知识,是自然语言处理与生物学的交叉研究领域,简称为BioNLP。
研究对象是生物医学文献,包括电子病历、社交媒体、治疗指南、药典等,采取自然语言处理技术从中识别出相应的医学实体,抽取其关系,形成生物网络,进而去发现隐含知识。早期的研究包括生物医学文本检索、分类、聚类、抽取、主题分析、摘要、假设生成等。
目前的主要研究方向:
(1) 生物医学文本的命名实体识别、关系抽取
(2) 生物医学文本的触发词识别、事件检测
(3) 生物医学文本的隐含知识发现
(4) 生物医学的多模态分析
在TCBB、BIBM、Bioinformatics、JBI、BMC Bioinformatics等重要期刊和会议上发表论文多篇。在技术评测BiovreativeV5、ImageCLEF和CHIP中获得多项第一。
主要研究人员:杨志豪、王健、张益嘉、徐博
主要支撑的项目:
国家自然科学基金:
(1)面向生物医学文献的药物重定位隐含知识发现方法研究,No. 62072070,2021.1-2024.12
(2)基于多词驱动与卷积神经网络的生物事件抽取研究与应用,No.61572098,2016.1-2019.12
(3)基于生物医学文献和领域本体的蛋白质复合物预测方法研究,No.61300088,2014.1-2016.12
(4)生物医学事件抽取的触发词驱动与论元特征泛化方法,No.61340020,2014.1-2014.12
(5)基于信息抽取技术的蛋白质相互作用网络构建及蛋白质复合物识别研究,No.61070098,2011-2013
国家重点研发计划:
(1)精准医学研究,课题2:精准医学文本知识网络构建,No.2016YFC0901900,2016.07-2020.12
教育部“新世纪优秀人才支持计划":
(1)蛋白质相互作用网络的复合物识别算法研究,编号:NCET-13-0084,2014.1-2016.12