徐博 基于相关性的词向量
新闻来源:IR实验室       发布时间:2017/11/14 15:33:30

这周主讲论文来自于SIGIR 2017会议,论文题目是《Relevance-based Word Embedding》,作者是来自麻省大学的Hamed ZamaniW.Bruce Croft。论文围绕信息检索中的相关性指标,基于现有的word embedding思想,提出一种面向检索相关性的词表示方法,并在查询扩展和查询分类两个任务上验证了方法的效果。

方法提出的动机在于信息检索任务主要关注于查询和文档的匹配,其目标是根据查询文档的相关性给出文档排序列表;而现有的词表示模型主要基于词项临近度(Term Proximity),其目标是预测在上下文中与给定词项邻接的词。二者目标函数的不一致导致在检索任务中直接应用词向量的效果有待进一步提升,而本文主要关注于基于检索中的相关性对词进行向量化建模。

现有的word embedding模型主要是基于神经网络构建,包括word2vecGlove等模型,这类模型由于都基于词语临近度,因此能够对词与词直接的语义和语法信息给出有效建模,然而,语义和语法信息在检索任务中作用甚微,因此作者考虑将面向IR的词表示目标设定为:给定查询时,预测与查询相关的文档中的词分布情况。该目标已在查询扩展的相关模型中被成功应用。基于该目标本文提出两种模型:相关性似然最大化模型RLM: relevance likelihood maximization model和相关性后验概率估计模型PRE: posterior estimation model,下面对二者给出详细介绍。

在介绍目标函数之前,先给出本文方法的神经网络结构图,如下所示。该网络结构基于经典的单隐层神经网络模型,采用查询词One hot表示的加权平均向量作为网络输入,以查询向量与词向量的相似度作为输出,隐层表示为查询的Embedding,隐层至输出层的权重为学习到的词向量。

image001.png

为优化该模型,作者基于伪相关反馈方法,以反馈文档作为查询相关性分布的基础,分别基于相关模型[1]和混合模型[2]估计基于伪相关文档的相关性分布,并得到两组目标函数,以训练获得词向量,两个模型分别称作相关性似然最大化模型和相关性后验概率估计模型。

相关性似然最大化模型以相关模型为基础估计查询的相关性分布,在模型训练中采用Softmax模型学习词向量,基于极大似然估计,获得最终的目标函数由于目标函数中归一化项计算复杂度较高,因此作者采用层次化Softmax的思想估计和求解。目标函数具体形式如下所示:

image003.png

相关性后验概率估计模型以混合模型为基础估计查询的相关性分布,并将该计算过程看作是二值分类问题,即是否能从查询的相关性分布中采样出给定词项。进而类比逻辑回归模型,采用交叉熵损失函数和负采样策略,得到目标函数并求解,目标函数的具体形式如下所示:

image005.png

模型的训练采用TensorFlow实现,训练数据来源于AOL搜索日志数据。实验评估主要基于查询扩展任务和查询分类任务。在查询扩展任务的实验结果如下所示:

image007.png

从实验结果可以看出,本文提出方法的性能显著优于现有的Word2vec模型和Glove模型,同时本文方法RLM的效果要优于RPE,作者将其原因归结为该模型输出更为合适的词项权重,提升了扩展查询的质量。作者同时也基于伪相关反馈架构验证了词向量的有效性,实验结构如下:

image009.png

这组实验进一步验证了本文方法学习的词向量的效果。在查询分类任务上,作者以KDD Cup 2005的数据为基础,实验结果如下所示:

image011.png

从实验结果可以看出,本文方法显著提升其他词向量构建模型的效果,不同的是,RPE模型的效果要由于RLM模型,作者也将产生该现象的原因归结为词项权重对结果的影响。

本文结论:作者基于相关性提出两种词向量构建的模型,分别基于极大似然估计和后验概率估计,并在两组实验中验证了所构建词向量的效果。未来工作作者将尝试将学习到的词向量应用于其他相关检索任务,同时采用点击数据等显式反馈信息优化现有模型。

 

参考文献:

[1] Victor Lavrenko and W. Bruce Croft‰. 2001. Relevance Based Language Models. In SIGIR ’01. 120–127.

[2] Chengxiang Zhai and John La‚erty. 2001. Model-based Feedback in the LanguageModeling Approach to Information Retrieval. In CIKM ’01. 403–410.

其他一些与IR & Word embedding相关的文献:

[3] Jointly Learning Word Embeddings and Latent Topics. SIGIR 2017.

[4] Embedding-based Query Language Models. ICTIR 2016.

[5] Estimating Embedding Vectors for Queries. ICTIR 2016.

[6] Word Embedding based Generalized Language Model for Information Retrieval. SIGIR 2015.

[7] Query Expansion with Locally-Trained Word Embeddings. ACL 2016.

[8] Enhancing Information Retrieval with Adapted Word Embedding. SIGIR 2016.

[9] Topic Modeling for Short Texts with Auxiliary Word Embeddings. SIGIR 2016.