近日,NLPCC 2025公布了录用论文列表,实验室四篇论文被录用。NLPCC是中文自然处理领域的旗舰会议,在CCF推荐列表中认定为C类学术会议。
1. FTAF:通过文本重写和关系链学习促进细粒度有害语言检测
标题:FTAF: Facilitating Fine-grained Toxic Language Detection via Text Rewriting and Relationship Chain Learning
作者:硕士生马凯 等
摘要:细粒度有害语言检测对于维护健康的媒体平台和社会环境具有日益重要的意义。由于社交媒体文本中存在多样的过渡和隐喻,以及其非正式性和非结构化特性,现有的方法难以识别针对特定身份的有害性和冒犯性内容。此外,由于对文本理解不足,现有方法缺乏对不同粒度特征之间关系(例如有害类型和攻击目标)的探索,这阻碍了检测性能的进一步提升。为了解决这些问题,我们提出了一个细粒度有害性分析框架(FTAF),通过简化和规范文本表达来促进细粒度有害语言的检测。首先,我们构建了一个社交媒体文本规范化器(SMTN),将复杂文本简化为可分析的结构,从而有助于捕捉仇恨言论特征。随后,我们开发了一种基于COT风格的关系链微调(RCFT)方法,通过学习有害特征之间的结构化关系来检测有害性。大量实验表明,我们提出的FTAF方法显著提升了细粒度有害语言检测的性能。
2. CADA:一种针对低资源仇恨言论检测的反事实对抗数据增强框架
标题:CADA: A Counterfactual Adversarial Data Augmentation Framework for Low-Resource Hate Speech Detection
作者:硕士生张博 等
摘要:检测低资源语言中的仇恨言论是一项重大挑战。现有研究通常采用数据增强技术来缓解标注数据稀缺的问题,但这些方法难以生成多样化的高质量样本。本文提出了一种新颖的反事实对抗数据增强框架(CADA),用于低资源语言的仇恨言论检测,该框架由生成器、判别器和分类器三大核心组件构成。具体而言,生成器首先引入反事实策略,利用大语言模型生成多样化增强样本;判别器通过对抗性校准机制验证生成数据的质量,提升增强过程的可靠性;分类器则利用增强数据深化对仇恨言论的理解与检测。我们在12种低资源语言的仇恨言论数据集上进行了大量实验,结果表明所提出的CADA框架性能优于现有最先进方法。消融研究进一步验证了框架中各组件的有效性。
标题:Propagandistic Meme Detection via Large Language Model Distillation
作者:硕士生邹鑫 等
摘要:模因作为一种具有病毒式传播特性的多模态内容,通过隐性叙事已成为意识形态宣传的有力工具。这类内容往往通过隐性的多模态冲突编码宣传意图,并建构超越字面含义的说服性叙事。然而,现有的模因宣传性检测方法普遍面临隐性语义捕捉不足与推理可解释性薄弱等挑战。受大语言模型在复杂推理任务中成功的启发,我们提出了一种三阶段框架,该框架协同融合了LLMs蒸馏与强化学习,以弥合上述差距。首先,我们将检测任务重构为生成式依据提取任务,通过伪依据对齐将推理能力蒸馏至学生模型。其次,我们引入基于DPO的偏好优化方法,以校准推理路径并降低幻觉风险。最后,通过任务特定的微调使模型适应二元分类任务。在宣传模因基准数据集上的评估表明,所提出的框架性能超越了当前最优模型,F1分数达0.8833。
4. 共享专家如何动态适应混合专家中的路由约束?
标题:How Do Shared Experts Dynamically Adapt to Routing Constraints in Mixture-of-Experts?
作者:硕士生李华阳 等
摘要:混合专家 (MoE) 架构因其能够显著提升模型规模和效率,如今已广泛应用于视觉语言模型领域。然而,这些复杂系统的内部运作动态,特别是功能角色、冗余度以及专用路由专家路径和广义共享专家路径之间的关键相互作用,在很大程度上仍未得到深入研究。为了探究这一点,我们利用受控路由限制和内部状态分析,对视觉语言 MoE 进行了系统性研究。我们量化了共享专家的贡献,并通过生成质量评估识别出路由专家的显著冗余。至关重要的是,我们展示了一种依赖于层的相互作用,其中限制路由专家会降低共享专家内容的稳定性,同时诱导输出幅度的补偿性增加,尤其是在早期层。这些发现阐明了 MoE 组件的耦合自适应特性,为模型压缩和设计提供了参考。