近日,实验室举行了博士生丁泽源的博士学位论文答辩会,丁泽源博士顺利通过博士答辩,获得了博士学位。丁泽源博士的多项研究成果发表在AAAI,IJCAI,IPM等国际顶级会议、期刊上。丁泽源的博士论文题目是《端到端任务型对话系统的关键技术研究》,其指导教师为杨志豪教授。论文摘要如下:
随着信息网络和深度学习技术的发展,传统的人机交互方式已经无法满足人们多元化的需求,任务型对话系统作为一种更便捷、智能的人机交互方式获得了研究者的广泛关注。近年来,自然语言处理技术的进步极大地推动了任务型对话系统的研究和应用。然而,现有的方法在端到端任务型对话系统的构建及其一致性识别等方面仍然面临着巨大的挑战。本文以模块端到端任务型对话、完全端到端任务型对话和端到端任务型对话的一致性识别三个关键任务为切入点,围绕着如何构建更加精准可靠的任务型对话系统展开研究。
对于模块端到端任务型对话研究,针对现有方法无法建模对话槽位之间的关系,导致生成去词汇化回复时融合对话槽位不准确的问题,本文提出结构图增强的多复制网络来解决该问题。该方法首先设计结构图建模对话槽位之间的关系,并在训练过程中根据对话上下文动态调整结构图中对话槽位之间的权重,以避免不准确的权重引入噪音。然后该方法引入多复制网络从结构图和对话历史中复制对话槽位融入去词汇化回复,以提高融合对话槽位的准确性。本文在多个任务型对话数据集上进行大量的实验,实验结果表明了该方法的先进性、各个组件的有效性以及低资源场景中的优越性。
对于完全端到端任务型对话研究,针对现有方法在检索大型知识库时检索准确率和效率低下问题,本文分别从模型层面和数据层面解决该问题。在模型层面,本文提出统一生成式任务型对话模型,该模型将检索知识库任务和对话生成任务统一建模为序列生成任务,并使用最大似然损失同时优化该任务,使其能以统一的方式先生成相关的知识记录再生成对话回复。在数据层面,本文提出了基于SQL驱动的任务型对话模型,该模型通过引入SQL语句将知识库与对话上下文进行解耦,以支持知识库扩展和高效检索。实验结果表明,本文从模型层面和数据层面提出的两种方法能够高效准确的检索相关的知识记录,并在多个任务型对话数据集上获得了最优的性能。
对于端到端任务型对话一致性识别研究,针对现有方法在融合知识库时引入大量无关知识记录导致的噪音问题,本文提出基于知识适配的一致性识别模型解决噪音问题。该模型首先通过知识适配器将外部知识库引入语言模型的内部推理过程中,然后设计融合层避免了融合知识库时引入的噪音问题。该融合层通过交叉注意力和稀疏化机制使模型只关注知识库中相关的知识记录,并通过动态门机制过滤知识库中无关知识记录。在一致性识别数据集上的实验结果表明本文的方法优于所有基线方法。