近日,实验室举行了博士生张博的博士学位论文答辩会,张博博士顺利通过博士答辩,获得了博士学位。张博博士的多项研究成果发表在TACL,ACM MM,TASLP等国际顶级会议、期刊上。张博的博士论文题目是《基于信息增强的对话生成关键技术研究》,其指导教师为王健教授。论文摘要如下:
随着人工智能技术的快速发展,对话系统逐步从理论构想走向实际应用,并在智能客服、虚拟助手及医疗咨询等领域展现出广阔前景。然而,现有对话系统在知识整合、跨模态对齐及专业领域适配方面仍面临显著挑战,生成内容易出现非事实性陈述、逻辑不连贯或领域知识薄弱等问题,在满足复杂应用需求方面仍有待提升。鉴于此,本文围绕信息增强的对话生成关键技术展开研究,聚焦文本信息增强、视觉信息增强及多模态生物医学信息增强三大场景。针对当前研究的不足,从小规模模型到大语言模型、显式视觉信息与隐式视觉知识、以及多模态生物医学检索增强等多维视角出发,分别提出了相应的解决方案,构建了从通用场景到专业领域的完整研究体系。主要研究工作体现在以下几方面。
(1) 在文本信息增强的对话生成研究中,针对现有方法因缺乏多源信息协同建模和高效知识适配导致知识融合不足的问题,本文从小规模模型架构设计和大语言模型知识适配两个维度展开研究。针对小规模模型多源信息协同建模不足的问题,提出了基于成对互信息与对话时序建模的对话生成模型TransIKG。该模型通过两阶段融合机制,结合位置感知的对话时序建模模块与知识感知指针网络,实现了知识、上下文与生成回复间的动态协同建模,有效提升了小规模模型的知识整合能力。针对大语言模型高效知识适配不足的问题,提出一种基于大语言模型的高效知识适配对话生成框架KEDiT。该框架通过信息瓶颈机制与轻量级知识感知适配器,实现了检索知识的高效压缩与动态注入,显著提升了大语言模型在时效性知识与专业领域知识方面的适配能力。实验结果表明,所提方法在开放领域与特定领域的对话数据集上均优于同量级对比方法。
(2) 在视觉信息增强的对话生成研究中,针对现有方法因数据稀缺导致跨模态对齐和隐式信息推理不足的问题,本文从显式视觉信息检索与隐式视觉知识蒸馏两个维度展开研究。针对显示视觉场景下跨模态对齐不足的问题,提出了基于视觉信息检索增强的零资源对话生成框架ZRIGF。该框架通过递进式学习策略,将图像和文本映射到统一的编码向量空间来建立视觉信息检索机制,同时实现对齐表征到对话生成的端到端映射。以此实现零资源场景下视觉信息的高效检索与深度利用,摆脱了传统方法对大规模标注数据的依赖。针对隐式视觉场景下大语言模型隐式视觉信息推理不足的问题,提出一种基于隐式视觉知识蒸馏的大语言模型对话生成框架VIKDF。该框架通过隐式查询变换器从大规模图像-文本对中提取隐式视觉知识,并通过双向变分信息融合技术将知识深度融入大语言模型,显著增强了大模型在零资源场景下的隐式视觉信息推理能力。实验结果表明,所提方法在零资源场景下均能生成与视觉语境高度相关的对话内容,且具有出色的泛化能力和鲁棒性。
(3) 在多模态生物医学信息增强的对话生成研究中,针对生物医学领域多模态检索语义映射及知识动态筛选机制不足的问题,提出了基于多模态检索增强生成的生物医学对话生成框架BioMRAG。该框架包含两个核心模块:多模态生物医学检索器和基于轻量级代理模型的知识筛选算法。多模态检索器通过对比学习与掩码建模策略,实现了生物医学图像和文本的统一语义映射与深度对齐;知识筛选算法通过轻量级代理模型动态评估检索知识的价值,有效平衡了大语言模型内在知识与外部检索知识的协同作用。实验结果表明,所提方法在多个生物医学多模态数据集上均取得了优异表现,能够显著提升生物医学对话生成的医学准确性、信息丰富性和上下文一致性。
