马云龙同学顺利通过博士论文答辩
新闻来源:IR实验室       发布时间:2016/9/9 9:02:33

201698日下午,在创新园大厦A702会议室,举行了博士论文答辩会,马云龙同学顺利通过答辩。

马云龙同学系计算机专业保送研究生,进入信息检索研究室硕博连读,历经硕士和博士阶段的学习,取得了较好的研究成果,博士论文题目是《查询理解与正负双向相关反馈技术研究》(《The Research on Query Understanding and Positive-Negative Relevance Feedback Approaches》)。论文摘要如下:

广泛迅捷的分享和交换信息是互联网最重要的优点之一,然而随着互联网中承载的 数据量和信息量呈指数级爆炸式增长,导致人们必须面对日益严重的信息过载问题。在 该背景下信息检索技术应运而生并随着互联网一起迅猛的发展,成为当前解决信息过载 问题最直接和有效的手段。同时查询理解和相关反馈技术是近几年被广泛验证的用于改 善信息检索性能的有效途径,尽管现有研究已经取得了一些重要进展,但是仍然有很多 关键的问题没有得到很好的解决。针对现有研究中存在的种种不足,本文在分析当前各 查询理解和相关反馈算法基础上,重点对查询理解技术以及以其为基础的相关反馈技术 进行了深入的研究。本文的主要研究工作和贡献如下:

1. 针对查询理解技术中的词项权重预测问题,本文将其转换为序列标注问题, 出了一种新的基于循环神经网络的查询词项权重学习模型。该模型通过综合考虑查询中 各词项的统计、语法、语义以及词项间关系信息构造查询词项特征向量,同时利用遗传 算法结合真实文档相关性标注得到最优词项权重值,最后利用双向循环神经网络对查询 词项序列与相应最优权重序列之间的关系进行有监督学习建模,实现了对查询词项权重 自动、合理和有效地预测。实验结果表明,通过该方法得到的查询词项权重能够明显地 提升检索效果,并且在多个数据集和检索结果准确率评价指标上均显著地优于各对比 方法。

2. 针对查询理解技术中现有查询意图分类方法普遍存在的严重依赖人工标注数据 和面对类别体系变化不灵活的问题,本文将其转换为由一个序列分类问题和一个经典分 类问题组成的两阶段分类问题,并根据该分类问题的特点,提出了一种新的基于级联深 度学习的查询意图分类方法。该方法首先从提高分类灵活度和效率的角度出发,提出了 一种级联的深度神经网络,构造了一个两阶段查询意图分类器;然后从降低对人工标注 依赖的角度出发,通过隐式相关反馈技术挖掘源于真实用户的标注行为,实现了查询分 类训练数据的自动构造。实验结果表明,该方法能够有效的对查询按主题意图进行分类且分类效果显著的优于各对比方法。

3. 针对现有基于查询扩展技术的相关反馈方法对检索系统查询日志及其中查询词 项间关系挖掘不足的问题,本文从充分利用检索系统查询日志进行查询扩展的角度出 ,提出了一种新的基于两阶段 SimRank 算法和查询扩展技术的相关反馈方法。该方法 通过引入权重关系改进了基于图结构的相似度算法 SimRank,并使用改进算法在由查询 点击图经多次转换得到的词项关系图上全面深入地挖掘词项间相似度及语义关联,从而 筛选出高质量的查询扩展词项。通过在公开标准数据集上的实验表明该方法可以有效地选择高质量相关扩展词项,使得检索效果有显著的提升。

4. 针对现有基于语言模型的相关反馈方法未能同时充分利用正向和负向相关信息

的问题,本文从充分利用隐式反馈和同时挖掘正负两种相关信息的角度出发,提出了一 种新的基于语言模型的正负双向相关反馈方法。该方法通过分析疑难查询场景下隐式反 馈的正负双向相关文档,基于语言模型检索框架,同时构造正向和负向相关语言模型并利用正向模型进一步优化负向模型,最大化地提高相关文档排名并尽量过滤非相关文 ,从而改善反馈检索的效果。通过基于多个 TREC 标准数据集的实验验证了该相关反 馈方法的有效性,且效果显著优于仅使用正向或负向相关信息的相关反馈方法,使得反 馈检索效果有显著的提升。

通过以上四个方面的研究,能够得到一个利用查询理解和相关反馈技术改善信息检 索整体过程的解决方案,帮助信息检索系统提升检索效果并改善用户体验。

关键词信息检索;查询理解;相关反馈;机器学习

1.jpg

2.jpg