近日,实验室博士生帕尔哈提关于面向低资源语言的跨语言命名实体识别研究成果被 Information Processing & Management (IPM) 期刊录用。IPM是自然语言处理领域顶级期刊,为中科院一区,CCF推荐B类期刊。
论文题目:SEGA: Selective Cross-Lingual Representation via Sparse Guided Attention for Low-Resource Multilingual Named Entity Recognition
中文题目:基于稀疏引导注意力的低资源多语言命名实体识别跨语言表示方法
中文摘要:多语言命名实体识别在低资源语言场景下面临诸多挑战,例如标注数据稀缺、跨语言信号噪声严重,以及不同语言类型之间的显著差异。针对上述问题,本文提出了一种选择性跨语言表示框架 SEGA,在训练阶段利用高资源语言的辅助信息,在推理阶段保持完全单语言输入,从而在提升性能的同时避免对翻译系统的依赖,更符合实际部署需求。
SEGA 通过三项关键设计实现高效的跨语言迁移:(1)稀疏引导注意力机制,选择与目标语言最相关的跨语言信号,有效抑制翻译噪声;(2)距离感知的位置先验,缓解不合理的长距离对齐带来的干扰;(3)轻量级表示融合策略,在跨语言信息与原生语言表示之间实现稳定平衡。在覆盖 60 余种语言的六个多语言 NER 基准上,SEGA 在多数数据集上取得了当前最优或具有竞争力的性能表现,尤其在低资源语言场景下优势明显。进一步的实验分析表明,该方法在不同语言类型下具有良好的鲁棒性和可解释性。