徐博 在CQA检索中建模未匹配词
新闻来源:IR实验室       发布时间:2017/6/2 17:31:55

  这周组会和大家分享的论文发表自SIGIR2016会议,题目为“That’s Not My Question: Learning to Weight Unmatched Terms in CQA Vertical Search”,本文关注于信息检索中的词匹配问题,在经典的查询词匹配的基础上,着重探讨了未匹配词在检索中的作用,并对未匹配词进行建模,基于排序学习架构针对未匹配词提取特征,将其应用于社区问答的垂直检索任务,并取得了较好的效果。

  针对于未匹配词的建模,作者首先在Yahoo Answers数据集上做了定量的分析,以突显对未匹配词建模的必要性。定量分析主要包括两个方面,基于IDF的分析和基于语法成分的分析。在基于IDF的分析中,作者通过下图说明了IDF在未匹配词中并不符合理想情况,即相关文档中未匹配词的IDF值会低于不相关文档中的IDF值,这一点有力阐明了本文方法提出的前提;在基于语法成分的分析中,作者通过POS和依存语法树等机构对点击文档和未点击文档中的各个语法成分的分布进行统计,统计结果表明,不同语法成分在不同文档的未匹配词中差异较大。以上两方面的分析,共同阐明了本文方法提出的动机。

  在方法部分,作者主要是基于现有的面向匹配词的统计特征和语法特征,构造未匹配词的镜面特征(mirror feature),即考虑未匹配词的词频等信息,并将其应用于特征的提取,所提取特征用于排序学习模型的训练,最终实现提升检索效果的目的。在此基础上,作者进一步提出软匹配策略(soft-matching),即将匹配词和未匹配词,进一步泛化为软匹配情形,来充分考虑词与词之间的语义关联。软匹配主要通过词向量相似度来获取。最后使用软匹配策略提取针对匹配词和未匹配词的特征,并基于语言模型泛化出新的特征。基于SVMrank算法训练重排序模型。实验分为两部分,一部分是自动评价,另一部分是人工评价,实验结果如下表所示。从实验结果可以看出,本文方法相比于其他方法具有较强优势,检索效果得到显著提升。image003.png

  本文有两点值得借鉴的地方,一是对于未匹配词的建模,这在先前的研究中较少涉足,合理的未匹配词的建模能够对检索效果起到促进作用;另一点是软匹配的机制,能够在匹配和未匹配间进一步考虑语义信息,或许可以应用在更多的检索问题上。