彭钰莹-在临床医学领域通过优化查询提高检索性能
新闻来源:IR实验室       发布时间:2017/3/31 22:17:07


信息检索的研究力量适用于广泛的领域和任务,长期以来学者们对于在临床环境中使用信息检索很感兴趣,因为大家都知道现在生物医学文献呈指数增长,为了让临床医生们有效的访问获取想要的生物医学文献,这篇论文建立了基于信息检索的临床决策支持系统CDS

CDS系统可以通过将电子健康记录与每个记录相关的信息相关联来预测作为查询提供的医生的信息需求。在搜索临床领域存在几个挑战,一个是临床查询的长度;另一个挑战是临床术语的模糊性。这篇论文应用查询重组表达技术改进CDS系统的检索从而解决这两大挑战。本论文使用的数据集为TREC数据集2014&2015上的数据。评价指标使用P@K, infNDCG, NDCG进行度量。下图为CDS系统工作大体框架。


1、        将原始的query内容使用MetaMap进行概念的映射,将原始的自然语言文本映射为临床上的概念,之后放入推荐模型中进行评判。推荐模型是一个分段函数,对传入的概念进行相关性的评价,最后给出一个和临床上的概念的相关程度的评价。主要依靠统一的医学语言系统UMIS将临床医学概念映射到133个不同的语义类型。手动将概念分配到三个不同权重的袋子中进行加权投票,通过概念袋计算之后得到权重,之后再通过分段函数进行映射,最终得到的是原始查询中的某个词相对于临床医学的相关程度,共四级,分别为重要,基本,弱相关,无关。对于查询进行扩展和重构的后续的两个方法就基于这个推荐模型给出的相关程度来进行计算。



2、        查询重组部分,主要是在计算查询和文档的相关性部分进行查询的重构操作,查询中的一个词通过Metamap得到的概念信息进行评级之后,若相关性程度非常大,就在于文档进行相关性计算时赋予更高的权值,使其影响的分数更大,此时注意本文认为若重要的词出现在摘要中则认为该论文可能与该词有关,所以在摘要中该词的权重也要增加;若无关,则将其从相关性计算中剔除;若相关程度一般就减少其权重。


3、        基于MeSH的查询扩展部分,只针对推荐模型推荐为“重要”的查询词进行扩展。主要将查询映射得到的概念放入MeSH的系统中进行概念树的查询,构建出一棵包含着这些概念所有祖先节点和子节点的概念树。之后根据推荐模型中给出的相关性信息,通过计算语义相似度也就是节点的语义距离来对这棵树进行剪枝操作,选择要保留和要剔除的部分,最后将原始查询映射得到的概念附近的概念(兄弟/子代)取出,和原始的查询映射得到的概念以一定的权重相加的方式来计算文档的得分,完成查询扩展的操作。


4、        在搜索引擎系统中将上面描述的两个方法各自计算得到的得分信息通过一个模型融合的算法融合,此处使用逆平方的方法进行最后分数的计算,最终得到的分值作为最后的排序分数向用户展现。


实验表明,使用这些方法可以改善查询提高检索效率,具有统计学意义。

参考:

MetaMap

https://metamap.nlm.nih.gov/

MeSH Liberary

https://meshb.nlm.nih.gov/

PubMed Liberary

https://www.ncbi.nlm.nih.gov/pubmed