2023年11月,第八届国际生物医学文本挖掘挑战赛BioCreative Ⅷ研讨会在美国新奥尔良举办。期间,组委会揭晓了今年BioCreative的评测结果,实验室由李记如、潘丁豪、祁杰蔚同学组成的两支参赛队伍,在实验室老师们的指导下分别在Track 1: BioRED和Track3: Phenotype normalization两个赛道均荣获第二名的优秀成绩。
BioCreative是国际著名生物医学文本挖掘挑战赛,从2004年开始举办,通过设置一系列的评测任务,旨在推动生物医学文本挖掘研究的发展。今年BioCreative Ⅷ设置了4个赛道,总共有来自美国伊利诺伊大学、德克萨斯大学、英国帝国理工学院、曼彻斯特大学、澳大利亚皇家墨尔本理工大学、葡萄牙里斯本大学、韩国高丽大学和美国的医药公司Insilicom等国际知名高校与企业30支队伍参加,197个系统提交。实验室参加评测的具体情况如下:
赛道1-BioRED (Biomedical Relation Extraction Dataset)
该赛道由美国国立卫生研究院(NIH)的国家生物技术信息中心(NCBI)主办,目标从摘要级别文本中自动抽取出药物、疾病等多种生物医学实体以及其语义关系,并确定其是否是本文的创新关系。实验室队伍(表格中为Team129)提出了一种多任务联合学习方法,通过增强关系抽取的中间步骤,缓解误差累积问题,提升关系分类与端到端联合关系抽取的性能,在本赛道的两个子任务中均荣获排名第2的成绩。
结果排行表如下(数据来自主办方的赛道总结论文《The overview of the BioRED (Biomedical Relation Extraction Dataset) track at BioCreative VIII》)。
赛道3- Genetic Phenotype Extraction and Normalization from Dysmorphology Physical Examination Entries (genetic conditions in pediatric patients)
该赛道由美国西达赛奈医学中心(Cedars-Sinai Medical Center)和费城儿童医院(Children's Hospital of Philadelphia)主办,目标从电子病历体检报告中自动抽取人类表型实体并标准化到人类表型本体库(HPO)。实验室队伍(表格中为Qi et al.)提出了一种基于深度学习的流水线方法,先进行表型实体识别,再将实体标准化任务建模成分类任务进行候选实体分类,最后利用多种先进的生物预训练语言模型进行集成。在本赛道的两个子任务中均获得排名第2的成绩。
结果排行表如下(数据来自主办方的评测论文《BioCreative VIII – Task 3: Genetic Phenotype Normalization from Dysmorphology Physical Examinations》)。