实验室关于BioNLP关系抽取任务的研究成果被期刊IEEE Access录用
新闻来源:IR实验室       发布时间:2019/10/30 14:28:22

  近年来,基于生物医学文献中的关系抽取工作一直是生物医学领域的研究热点,实验室一直致力于该领域的研究与探索。近日,收到期刊《IEEE Access》编辑部邮件,实验室孙聪同学等的研究工作“A Deep Learning Approach With Deep Contextualized Word Representations for Chemical–Protein Interaction Extraction From Biomedical Literature”已被录用。

  化学物与蛋白质之间的相互作用关系对于临床医学,药物不良反应和药理学研究至关重要。尽管可以通过手工抽取的方式来构建化学物-蛋白质相互作用(CPI)关系库,但是此过程昂贵且耗时。因此,从生物医学文献中自动抽取CPI具有重要意义。当前,主流的CPI抽取工作是基于深度学习的方法来实现的。但是,现有模型的性能通常不能令人满意。原因可能在于:(1)传统的词向量建模方法不能充分地建模上下文信息,(2)现有模型很难有效地区分哪些单词在较长的生物医学句子中起关键性作用。在本研究中,针对现有模型的不足,我们提出了一种新颖的Deep-contextualized Stacked Bi-LSTM(DS-LSTM)模型。我们的模型主要由三个部分组成:深度的上下文词表示,实体注意力机制以及栈式双向长短期记忆网络(Bi-LSTM)。我们在CHEMPROT语料库上评估了我们的模型。我们的模型实现了69.44%的微平均F1值,明显高于其他模型的性能水平。实验结果表明,我们的模型能够充分建模上下文信息,有效地区分哪些单词在较长的生物医学句子中起关键性作用,从而提升整体性能。