2023年10月13日-15日,实验室林鸿飞,杨亮,罗凌,徐博老师以及博士硕士研究生一行10人参加了在广东佛山举行的第十二届自然语言处理与中文计算国际会议(NLPCC2023),它是国内自然语言处理领域的重要会议,被CCF列为C类会议。
实验室共有2篇大会论文,2篇评测论文被录取,同时获得技术评测任务“User Feedback Prediction and Response Generation”赛道一“User Feedback Prediction”的 第一名,评测任务,“Conversational Aspect-based Sentiment Quadruple Analysis”的第五名。
NLPCC2024将在杭州举行由西湖大学承办。
论文1:居高临下言论(Patronizing and Condescending Language)是一类针对弱势地位群体,并为该社区团体带来长期潜在伤害的隐式毒性言论。作为亟待解决的毒性检测分支,该类言论尚缺乏高质量数据语料及世界知识(尤其在中文领域),现有英文数据集缺乏对毒性强度的细粒度注释,带有较强的主观认知。本文提出了第一个中文领域的居高临下分层检测框架CondescendCN Frame。在此基础上,我们提出了CCPC数据集,这是基于微博、知乎社交媒体的11k结构化注释。我们发现注释过程中融入细粒度毒性强度(Toxic Strength Fusion)能有效提升居高临下的检测能力。训练后的模型在更广泛的社交数据中(120k以上)证明了良好的泛华能力。我们的统计表明居高临下言论更倾向于针对妇女和儿童,并亟需进一步研究。
论文2:药物不良反应(ADRs)的检测是医学领域的一个重要问题。ADRs不仅严重影响患者的健康,而且给医疗系统和社会带来巨大的经济损失。由于大量的用户在社交媒体平台上分享信息和传播信息,越来越多的研究人员正在研究基于社交媒体数据的ADRs检测问题。虽然研究人员在ADRs检测领域已经取得了很多进展,但是仍然存在一些问题亟待解决,比如忽视了领域关键词与句子中其他单词的交互作用,此外社交媒体数据集中存在标注数据少和样本不平衡的问题。在本文中,我们提出了一种用于ADRs检测的新方法,命名为浅层和深层知识增强的Transformer模型。具体来说,我们首先构建领域关键词和相应的同义词集作为外部知识。然后,我们提出通过浅层和深层融合的方式将外部知识整合到Transformer中,一方面,领域关键词的引入能够让模型充分挖掘领域关键词与句子中的其他单词的交互关系,另一方面,同义词的引入可以有效缓解数据标注量少的问题。最后,我们提出用Focalloss损失函数取代传统的交叉熵损失函数,以缓解样本不平衡问题对模型性能的影响。我们在三个公共数据集(TwiMed、Twitter 和 CADEC)上进行了广泛的实验并取得了优异的性能。