徐博 Representative & Informative Query Selection for Learning to Rank using Submodular Functions
新闻来源:IR实验室       发布时间:2016/5/25 22:56:05

    这次我主讲的论文题目为《Representative & Informative Query Selection for Learning to Rank using Submodular Functions》,发表于信息检索顶级会议SIGIR2015,作者是MehrotraYilmaz,来自University College London。本文所关注的问题是排序学习中的标注查询的选择问题,之所以需要选择标注查询,其原因在于通过有针对性的选择标注查询用于排序模型的训练,可以有效降低标注成本,提高数据和模型的泛化能力。作者因此提出从两个角度来选择查询,即查询的代表性和查询的信息性,并从这两个角度出发分别提出两种模型:基于排序概率的信息性查询选择模型和基于主题模型的代表性查询选择模型。并在此基础上,权衡二者提出一种基于次模函数的信息性和代表性耦合模型,通过大量实验证明了三种模型的有效性。下面具体介绍一下这三个模型。

1、基于排序概率的信息性查询选择模型。查询信息性的度量主要从查询的不确定性和查询的不一致性考虑。不确定性是指当前排序模型能否给出最优排序的可能;而不一致性是指多个排序模型在给定标注数据上能否给出一致的排序结果。该模型正是从这两个角度出发,采用排序概率度量模型排序的效果。具体地,首先根据已有标注数据训练一个排序模型的集合,分别利用训练好的每一个排序模型为未标注查询进行排序打分,根据文档的排序分值计算排序概率,从而针对于排序模型集合中的每一个模型都能输出一个概率得分,从中选择具有最大得分的模型作为该查询的得分,并在所有未标注查询中选择最大得分最小的一个最为信息量最大的查询,用于标注。

2、基于主题模型的代表性查询选择模型。代表性主要是指所标注查询能从多大程度上代表所有的未标注查询。本文采用LDA主题模型对查询所代表的主题进行建模,并以此为依据,衡量每一个查询与未标注查询集合中其他查询的关系,从而选择最能代表整个未标注查询集合的查询进行标注。

3、基于次模函数的信息性和代表性耦合模型。由于信息性和代表性都能从一定程度上反映出查询的有用性,作者进一步探索如何将二者有效融合,提高查询选择的整体效果。因此提出一种基于次模函数的耦合模型。次模函数是一种集合函数,能够将集合映射到实数上,并具有收益降低的特性,所谓收益降低就是当集合增大时,向集合中增加元素所带来的收益是逐渐降低的。本文采用线性差值的方式融合信息性和代表性模型,从而构造一种次模函数,将其作为查询的最终选择模型。这里的信息性模型和代表性模型不同于上述两种模型,形式上不同,但是思想上具有一定相似性。采用贪婪优化方法构造最终的标注查询集合。

    本文实验采用排序学习的标准数据集LETOR3.0LETOR4.0数据集,通过大量实验证明了本文方法能够大幅度降低数据的标注成本,其中基于次模函数的耦合模型取得最好的实验效果。