徐博 面向高效率监督式查询扩展的两阶段特征选择方法
新闻来源:IR实验室       发布时间:2016/12/23 10:51:42

  这篇论文题目为《Learning for Efficient Supervised Query Expansion via Two-stage Feature Selection》,发表自SIGIR 2016会议,作者来自普渡大学。文中主要关注的研究问题是如何在不影响检索性能的情况下尽可能高的提升监督式查询扩展方法的效率。由于监督式查询扩展的效率开销主要来源于扩展词的特征选择过程,因此本文针对特征选择提出一种两阶段的方法,并通过大量实验证明本文方法的有效性。

  监督式查询扩展顾名思义就是采用监督式学习方法选择查询扩展的扩展词,相比于非监督的方法,近年来监督式方法被证明更为有效,但其时间开销也更大。本文提出的方法分为两个步骤:1、适应性查询决策过程(AED: Adaptive Expansion Decision),即预先判断一个查询是否适合于监督式扩展,选择适合监督扩展的查询提取扩展词特征,以降低开销;2、时间敏感的特征选择过程(CCFS: Cost Constrained Feature Selection),即将时间和效率因素融入目标函数,并进行优化,从而选择时间开销最小的特征子集用于模型的学习。

  针对第一阶段适应性查询决策过程,作者提出基于预先定义的一系列查询性能预测特征训练查询分类器,该分类器的学习目标是某一查询在监督式扩展后的检索性能是否有提升,如果有提升则标注该查询为正例,否则标注其为负例,从而实现适应性的查询选择,选择出那些能够在监督式查询扩展中受益的查询,用于第二阶段的扩展。针对第二阶段时间敏感的特征选择过程,作者提出在RankSVM算法的基础上改进目标函数,在其中融入每一维度特征的提取时间开销因素,并采用数值优化过程进行优化和求解。

  本文实验主要基于Robust04,Clueweb09B和Clueweb12B三个TREC公开数据集以及基于Bing搜索引擎的工业数据集。给出六组实验结果,分别探讨本文方法的整体效果,CCFS过程的效果,AED过程的效果,每一阶段时间开销的具体对比情况,扩展词个数对于检索性能的影响和二次检索中重排序和完全检索效果的对比。通过上述实验全面的证明了本文方法的有效性。