生物信息组
研究方向: 面向生物医学领域的文本挖掘(Biomedical Text Mining )

以MEDLINE的生物医学文献为主要数据源,利用改进的编辑距离和隐马尔可夫链、条件随机域等机器学习方法,完成基因、蛋白质等的实体名字识别,进而挖掘基因、蛋白质、疾病和药物之间的相互关系,以此进行生物医学领域的假设发现,建立具有实用价值的生物医学知识发现系统。面向具体生物医学应用领域,综合利用MeSH(医学主题词)、UMLS(统一医学语言系统)和GO(基因本体)以及相应的中文生物医学主题词资源,利用基于实例的机器学习和潜在语义分析技术,建立中文生物医学文本的概念标注和信息抽取机制,将中英文相关文本统一在相同的语义视图之下,在此基础上构造双语生物医学文本的交叉挖掘模型。同时对于生物医学领域中知识模式的挖掘、检索和评价机制进行深入的研究,从而建立面向生物医学领域的跨语言文本挖掘平台。

研究方向:

(1)生物医学信息中的实体识别 对基因、蛋白质的研究是生命科学的热点,从生物医学文献中抽取基因、蛋白质名称及其功能,对于进一步发现基因、药物、蛋白质分子间联系和相互作用有着非常重要的意义。虽然关于实体名识别的研究已具有一定的历史,但是生物医学文献中的实体名命名不规范的情况要比其他文献(如新闻)严重得多,变体、缩写和嵌套等现象大量存在。因此成为当前研究的一个难点和热点。我们尝试利用改进的编辑距离、隐马尔可夫链、条件随机域等方法给出具有较高精度的实体识别算法。

(2)蛋白质关系网络构建和复合物发现 随着基因组学研究和高通量技术的飞速进步,蛋白质之间的相互作用数据迅速积累,从蛋白质相互作用网络数据中识别出蛋白质复合物,是生物体行为理解、蛋白质功能预测和药物设计的基础。本项目综合利用各种生物医学知识源,采用特征耦合泛化策略构建蛋白质的实体识别模型;使用基于语义的相似度比较解决蛋白质名标准化中的歧义问题;利用平面特征核、卷积树核以及特征耦合泛化核的复合核模型进行蛋白质交互关系抽取,从而构建高准确的蛋白质相互作用网络。在抽取蛋白质复合物的过程中,综合考虑图的拓扑结构、蛋白质复合物的生物结构和蛋白质的功能标注信息,抽取候选蛋白质复合物。为进一步提升复合物识别性能,利用机器学习方法,结合图的拓扑结构信息、关系的可信度和络合物内蛋白质相似程度对候选蛋白质复合物进行过滤,最终得到目标蛋白质复合物。

(3)挖掘基因、蛋白质、疾病和药物之间的相互关系 自从Swanson通过分析MEDLINE文献,得到镁与偏头痛之间的11个医学关联之后,许多机构和研究人员都投入这个领域进行更深入的研究。目前的研究大多是基于共现模式,这对于具有明显的关联的蛋白质和基因效果显著。但是对于不是位于同一物理单元等蛋白质和基因则需要更为深入细致的挖掘方法。我们将综合各种医学语义资源:MeSH、UMLS以及GO, 利用蛋白质和基因的上下文环境和与概念的关联程度,利用基于扩展的潜在语义索引、基于自组织神经元的聚类方法以及概念关联网络挖掘它们的相互关系。这些方法的特点不是依赖于特定的共现词汇而是依赖于上下文环境来判断两者的相似程度。 我们对于H1N1的致病基因进行了研究,取得了初步的结果。

(4)面向生物医学领域的问答系统和摘要系统 面向生物医学领域的问答系统除了基本的问答系统的特征之外,关键是领域知识的整合。相对比其他领域而言,生物医学领域的语义资源建设十分规范和完整,为我们进行文本分析处理奠定了良好的基础。像UMLS包括三个主要部分:Metathesaurus(元数据词典)、Semantic Network(语义网络)和Specialist lexicon (专家词典)。因此借助概念,通过对于基因和蛋白质所处的上下文进行标注,给出基于概念的相似度量,为寻求确切的答案提供支持。为此我们在基因提及标准化、多个知识本体的整合、概念标注和句子相似度方面做了相应的研究。

该研究领域获得了2项国家自然科学基金《面向生物医学领域的文本挖掘技术研究与应用》和《基与信息抽取技术的蛋白质相互作用网络构建及蛋白质复合物识别研究》、教育部留学人员归国科研启动基金和辽宁省博士启动基金的支持。