徐博 信息检索中深度学习相关的研究
新闻来源:IR实验室       发布时间:2015/12/11 12:30:10

    近年来,深度学习方法以其优越的性能被广泛的应用于多个自然语言处理和文本挖掘任务中,均取得了较好的性能。信息检索作为自然语言处理的经典任务之一,一直以来备受关注。如何利用深度学习方法辅助检索过程是近期的研究热点之一。本文简要对基于深度学习方法的信息检索技术的研究做以总结,详细介绍以下三篇论文,这三篇论文均为SIGIR2015会议的长文。

(1)    Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks

本文采用卷积神经网络模型处理短文本排序问题,在排序的过程中分别将查询和文档表示为中间表达的形式,通过权重矩阵计算二者的相似度,可看作是点级的排序学习过程。实验部分分别在问答QA和微博检索的数据集上验证了本文方法的性能。卷积部分句子模型结构如下图所示。

该句子模型最开始提出时被用于句子分类任务。执行过程中,首先利用词向量将原始的文档句子表示为矩阵,矩阵的每一列代表一个词;然后在该矩阵上进行卷积操作得到卷积特征映射(feature map),这里的卷积操作对应多组过滤器(filter),因此可形成多组卷积特征映射;对得到的特征映射进行池化操作(pooling)后得到对应文档的中间表示。

将上述卷积操作得到的查询表示和文档表示用于计算查询和文档的相似度,计算过程如上图所示。矩阵M用于计算查询文档的相似度;连接层用于将查询和文档的中间表示、相似度值以及一些其他特征进行拼接,作为最终的多分类器层的输入。该方法模型参数较多,训练和实现的过程中可能需要一些技巧。

2Learning to Reweight Terms with Distributed Representations

这篇文档的主要思想是使用分布式词表达训练得到查询词的权重。具体来说,首先采用分布式词向量作为词特征,采用平均召回率作为标准的词权重,监督地训练得到词加权模型,优化方法使用的是经典的lasso回归。

本文通过大量实验充分证明了所提出方法的性能。值得借鉴的地方主要包括实验验证的方式和方法。本文实验部分主要包括基于不同检索模型的改进实验,词向量维度对实验结果的影响,语料对于方法性能的影响,查询长度对检索性能的影响,方法的鲁棒性和其他评价指标的影响等。

3Exploring Session Context using Distributed Representations of Queries and Reformulations

这篇文章关注于查询推荐问题,采用卷积潜在语义模型将变长的推荐查询映射为定长的向量表达,进而采用排序学习方法LambdaMART对候选推荐查询排序,选择其中最有效的查询作为推荐。

综上所述,基于深度学习技术的信息检索方法大体可以分为三类:第一类使用深度学习模型构建查询与文档的相似度表达,并用于文档排序任务;第二类使用分布式词向量表征不同查询词的重要性,进而对其进行加权;第三类在现有的检索模型中融入深度学习过程,对其进行优化。