2023年10月07日实验室举行了博士生钱凌飞的博士学位论文答辩会,钱凌飞博士顺利通过博士答辩,获得了博士学位。钱凌飞博士的多项研究成果发表在国内外知名期刊上。钱凌飞的博士论文题目是《基于用户建模的社区问答关键技术研究》,其指导教师为王健教授。论文摘要如下:
社区问答目前已经成为人们获取信息的重要渠道。用户可以在其中自由地提问,并且从具有领域知识的其余用户处获取相关的知识。成熟社区问答系统存在的海量匹配的问答对会使得用户在获取知识时面临信息过载的问题。近年来,自然语言处理技术的发展虽然一定程度上缓解了该问题,但是社区问答中用户之间表达习惯及兴趣分布的差异使得理解不同用户的文本语义时仍然存在困难。因此,需要在社区问答的研究中引入用户的特征以进一步提升用户获取知识的体验。然而,社区问答独特用户数据特性使得在各场景下进行用户特征建模时面临着巨大的挑战。对此,本文基于深度学习技术,围绕用户问题在社区问答中从产生、提出、再到解决三个关键步骤所对应的相似问题识别、问题路由和回答重排序任务展开研究,着重针对社区问答中用户建模面临的技术挑战进行深入研究,主要研究内容包括以下方面。
(1) 在相似问题识别中,针对多数提问者交互较少且网络中存在噪声的问题,提出一种基于用户节点自区分的提问者建模方法。该方法首先采用图神经网络来学习社区问答交互网络中的用户结构关联,以节点信息聚合的方式,使用邻域信息丰富提问者的节点表示。随后在节点训练过程中以一定的比例随机掩盖用户交互网络中的边,一定程度上改变网络中用户节点的问答关联,以多个视角下相同节点的表示作为监督信号,增强多个视角下用户节点结构表示的一致性。最后将提问者节点表示作为问题的背景来丰富问题的语义信息,并结合注意力机制使模型更准确地理解问题间的语义交互。实验结果表明,提出的模型可以从有噪的交互网络中更有效地学习交互稀少的提问者的结构信息,增强模型对于问题语义交互的理解,进一步提升相似问题识别的准确率。
(2) 在问题路由中,针对由用户问题结构特殊性造成的信息冗余及社区问答中潜在专家难以发掘的问题,分别提出了基于问题主成分交互编码和基于多视角元路径游走的专家用户建模算法。前者提出独立编码结合交互注意力的双层编码机制,独立学习问题各组成内部及交互的语义信息,削弱各组成中冗余信息的影响,提升专家专业度建模的准确度。后者提出以回答获取的投票数作为基准定位所有的潜在专家,分别从构图及模型训练两个阶段关注潜在的专家。采用多视角元路径游走算法全面评估所有潜在专家解决问题的意愿及能力,并通过一种权重控制的双角度损失函数,平衡最佳回答者及其余潜在专家的权重。实验结果表明,提出的模型能更准确地从冗余信息中获取问题的语义并且关注到更多潜在的专家用户,更准确地为问题推荐提供最佳回答的专家。
(3) 在回答重排序中,针对结合问题领域动态融合回答者异构数据效率低下的问题,提出一种自适应用户异构信息融合的回答者建模方法。该方法将用户异构信息的融合分解成两个阶段。首先采用预训练语言模型对回答者历史回答进行语义编码,同时独立地学习交互网络中用户节点之间的结构关联信息。随后提出一种自适应的过滤门来筛选与当前问题领域相关的历史回答,并将其语义与回答者的结构信息融合。最后结合问题回答的语义相关度及不同回答者的专业度来对回答进行排序。该方法避免了动态评估回答者领域专业度导致的重复语义编码及网络节点嵌入学习过程。实验结果表明,提出的方法可以更有效地结合当前问题语境,自适应融合回答者的异构信息,同时更准确地判断每个回答的质量。