近日,ACL 2025公布了录用论文列表,实验室五篇长文被录用,包括三篇主会,两篇Findings。ACL是计算语言学和自然处理领域的国际顶级会议,在CCF推荐列表中认定为A类学术会议,在学界和业界享有盛誉。

1. 披着羊皮的狼:LLMs 准备好应对隐喻性隐含仇恨言论了吗?
标题:Sheep's Skin, Wolf's Deeds: Are LLMs Ready for Metaphorical Implicit Hate Speech?
作者:博士生曾景杰 等
录取:main conference
摘要:隐性仇恨言论已成为在线平台的一大挑战,因为其间接表达的仇恨意图常常使大型语言模型(LLMs)难以检测。本研究指出了 LLMs 在检测隐性仇恨言论方面的局限性,尤其是在其伪装成看似无害的修辞手法时。为应对这一挑战,我们采用了越狱策略和基于能量的约束解码技术,并设计了一个用于测量隐喻修辞能量的小型模型。这种方法可能导致 LLMs 生成隐喻性的隐性仇恨言论。我们的研究表明,像 GPT-4o 这样的先进 LLMs 经常误解隐喻性的隐性仇恨言论,且未能有效阻止其传播。即使是专门的模型,如 ShieldGemma 和 LlamaGuard,也在阻止此类内容方面表现不足,常将其误判为无害言论。该研究指出了当前 LLMs 对隐性仇恨言论的脆弱性,并强调了改进以更好应对仇恨言论威胁的重要性。

2. 如果你能证明那就不是吹牛:LLMs 能理解吹牛吗
标题:It's Not Bragging If You Can Back It Up: Can LLMs Understand Braggings?
作者:博士生曾景杰 等
录取:main conference
摘要:吹牛,作为一种普遍存在的社会语言现象,反映了复杂的人类互动模式。然而,大型语言模型(LLMs)对适当吹牛行为的理解和生成仍未得到充分探索。本文提出了一项结合分析和可控方法的综合研究,以考察 LLMs 中的吹牛行为。我们设计了三个任务,分别是吹牛识别、吹牛解释和吹牛生成,并提出了新的评估指标,以评估模型识别吹牛意图、社会适宜性及考虑上下文敏感性的能力。我们的分析揭示了吹牛在社会语境中的挑战,例如识别吹牛以及在对话中适当回应吹牛。该工作为 LLMs 如何处理吹牛提供了新见解,并强调了在 LLMs 中生成符合上下文且社会友好行为的研究需求。

3. 文化偏见问题:多模态隐喻理解的跨文化基准数据集与情感增强模型
标题:Cultural Bias Matters: A Cross-Cultural Benchmark Dataset and Sentiment-Enriched Model for Understanding Multimodal Metaphors
作者:博士生杨森淇 等
录取:main conference
摘要:隐喻在人类交流中无处不在,这使其成为自然语言处理(NLP)领域至关重要的研究对象。以往的自动隐喻处理研究主要依赖包含英语样本的训练数据,这些数据往往带有西欧和北美文化的固有偏见。这种文化偏向性可能导致模型性能被高估,并 NLP 领域的研究进展产生误导。然而,文化偏见对隐喻处理的影响,特别是在多模态语境中的表现,仍未得到充分探索。为弥补这一研究空白,我们构建了多文化多模态隐喻数据集MultiMM,该数据集包含8,461组中文与英文的图文广告配对样本,每个样本均配有细粒度标注,旨在突破单一文化领域的限制,深化对多模态隐喻的认知。此外,我们提出了情感增强隐喻检测模型(SEMD),通过整合情感嵌入向量来提升跨文化背景的隐喻理解能力。实验结果验证了SEMD在隐喻检测和情感分析任务中的有效性。本研究旨在提高学界对NLP领域文化偏见问题的认知,推动构建更加公平包容的语言模型体系。

4. LLM 是一个过于自信的评判者吗?揭示 LLM 在标注不一致的攻击性语言检测中的能力
标题:Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Language with Annotation Disagreement
作者:博士生卢俊宇 等
录取:findings
摘要:大型语言模型(LLMs)已成为攻击性语言检测的重要工具,但其在处理标注分歧方面的能力尚未得到充分研究。由于主观理解的差异,分歧样本具有一定的模糊性,因而构成了一项独特的挑战。深入了解 LLMs 如何处理这类样本,尤其是它们的置信度水平,有助于揭示其与人类标注者之间的对齐程度。本文系统评估了多个 LLM 在不同标注一致性水平下对攻击性语言的检测表现。我们分析了二分类准确率,考察了模型置信度与人类标注分歧之间的关系,并进一步探讨了分歧样本在少样本学习与指令微调过程中的影响。研究结果表明,LLMs 在处理低一致性样本时表现不佳,且常在这些模糊情境下表现出过度自信。然而,将分歧样本纳入训练过程,有助于提升模型的检测准确性及其与人类判断的一致性。本研究为提升 LLM 在现实内容审核场景中的攻击性语言检测能力奠定了基础。

5. STATE ToxiCN:面向中文仇恨言论检测的目标感知型毒性片段抽取基准数据集
标题:STATE ToxiCN: A Benchmark for Span-level Target-Aware Toxicity Extraction in Chinese Hate Speech Detection
作者:博士生白泽文 等
录取:findings
摘要:仇恨言论的泛滥对社会造成了深远危害,其强度与指向性与其针对的目标及相关论点密切相关。然而,中文仇恨言论检测研究相对滞后,现有数据集缺乏跨度级别的细粒度标注,且对中文仇恨俚语的研究尤为不足,构成重大挑战。本文提供了两项重要的中文仇恨言论检测研究资源:首先,我们构建了跨度级别目标感知毒性提取数据集(STATE ToxiCN),这是首个跨度级别的中文仇恨言论数据集;其次,我们基于 STATE ToxiCN 评估了现有模型在跨度级别仇恨言论检测中的性能;最后,我们首次系统研究了中文仇恨俚语,并评估了大型语言模型对仇恨语义的理解能力。本研究为推进中文跨度级别仇恨言论检测提供了宝贵资源与深刻洞见。
