实验室参加BioCreative V.5 评测并取得优异成绩
新闻来源:IR实验室       发布时间:2017/5/22 11:12:25

  近日,实验室罗凌和杨培同学参加了国际著名BioCreative V.5评测(http://www.biocreative.org/),并在CEMP和GPRO两个生物实体识别任务上均获得第一名。本届BioCreative评测由西班牙癌症中心(Spanish National Cancer Research Centre)和西班牙比戈大学(University of Vigo)主办,吸引了来自全球相关科研机构和高校的广泛关注和参与,本次评测任务关注生物医学命名实体识别,为生物医学命名实体识别研究提供高质量的标注语料、工具以及评测服务。

  本届BioCreative V.5评测包含CEMP、GPRO和TIPS三个任务。CEMP(Chemical Entity Mention recognition)任务要求从生物医学专利文献中识别化学药物实体;GPRO(Gene and Protein Related Object recognition)任务要求从生物医学专利文献中识别基因蛋白实体;TIPS(Technical interoperability and performance of annotation servers)是一个在线开放任务,重点关注实体识别在线服务。

  我们参加了CEMP和GPRO两个任务,其中CEMP任务有14支参赛队伍总共提交了56个结果;GPRO任务有7支参赛队伍总共提交了30个结果,我们提交的最好结果在两项任务中都取得了第一名的优异成绩。官方结果如下:

image001.png

image003.png 

在评测中,我们在两个任务上使用的都是基于双向长短期记忆网络并结合随机条件场(BLSTM-CRF)的深度学习方法,模型整体结构如下图所示:

image006.png

  在我们的方法中,输入层使用了字符向量、词向量和语言学特征(词性POS和语块Chunking信息),丰富了输入信息;然后使用一个双向的长短期记忆网络(BLSTM)来获取要标注的句子网络得分;最后结合条件随机场(CRF)在序列标注问题上的优势,通过CRF层引入标签转移得分来优化获得整个句子的最优标签序列。该模型具有很好的鲁棒性,在CEMP和GPRO两个任务上都取得了优异成绩。

  该评测的专题讨论会 (BC V.5 Workshop)已于2017年4月在西班牙召开,会议论文集可在http://www.biocreative.org/resources/publications/bcv5_proceedings/下载。我们系统的相关评测论文题目为《DUTIR at the BioCreative V.5.BeCalm Tasks: A BLSTM-CRF Approach for Biomedical Entity Recognition in Patents》。