实验室师生参加第二十届中国计算语言学大会(CCL2021)-信息检索研究室

研究方向

学术报告

资源下载

当前位置：首页>>新闻动态>>正文

实验室师生参加第二十届中国计算语言学大会(CCL2021)

2021-12-07 10:40

2021年12月3-5日，第二十届中国计算语言学大会（CCL2021）在线上举行，由中国中文信息学会计算语言学专委会主办，内蒙古大学承办。

中国计算语言学大会创办于1991年，是中国中文信息学会(CIPSC)的重要会议。经过二十多年的发展，CCL被广泛认为是国内自然语言处理领域最权威的、最具影响力的学术会议会议。作为中国中文信息学会（国内一级学会）的旗舰会议，CCL聚焦于中国境内各类语言的智能计算和信息处理，为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。

林鸿飞老师担任此次会议的评测主席，并在大会做了评测总结报告。同时主持了大会特邀报告：清华大学刘嘉教授“支配人脑视觉皮层功能的原理：空间认知的视角”。

杨亮老师担任本次会议的网络主席，并主持了“小牛杯”图文多模态幽默识别评测，该技术评测于2018年由我们实验室举办，我们首次开展中文幽默计算评测，然后陆续推出机器生成幽默识别、情景喜剧笑点识别和多模态图文幽默识别。该评测得到“小牛思拓”的赞助。

实验室共有5篇论文在会议上发表。主要体现了实验室在幽默计算、隐喻计算、智慧司法、代码理解等领域的研究成果。

[1] 张童越，张绍武，徐博，杨亮，林鸿飞，结合标签转移关系的多任务笑点识别方法

幽默在人类交流中扮演着重要角色，并大量存在于情景喜剧中。笑点（punchline）是情景喜剧实现幽默效果的形式之一，在情景喜剧笑点识别任务中，每条句子的标签代表该句是否为笑点，但是以往的笑点识别工作通常只通过建模上下文语义关系识别笑点，对标签的利用并不充分。为了充分利用标签序列中的信息，本文提出了一种新的识别方法，即结合条件随机场的单词级-句子级多任务学习模型，该模型在两方面进行了改进，首先将标签序列中相邻两个标签之间的转移关系看作幽默理论中不一致性的一种体现，并使用条件随机场学习这种转移关系，其次由于学习相邻标签之间的转移关系以及上下文语义关系均能够学习到铺垫和笑点之间的不一致性，两者之间存在相关性，为了使模型通过利用这种相关性提高笑点识别的效果，该模型引入了多任务学习方法，使用多任务学习方法同时学习每条句子的句义、组成每条句子的所有字符的词义，单词级别的标签转移关系以及句子级别的标签转移关系。本文在CCL2020“小牛杯”幽默计算—情景喜剧笑点识别评测任务的英文数据集上进行实验，结果表明，本文提出的方法比目前最好的方法提高了3.2%，在情景喜剧幽默笑点识别任务上取得了最好的效果，并通过消融实验证明了上述两方面改进的有效性。

[2] 宋文辉, 周翔, 杨萍, 孙媛媛, 杨亮, 林鸿飞. 面向法律文本的实体关系联合抽取算法

法律文本中包含的丰富信息可以通过结构化的实体关系三元组进行表示，便于法律知识的存储和查询。传统的流水线方法在自动抽取三元组时执行了大量冗余计算，而现有的联合学习方法无法适用于有大量重叠关系的法律文本，因此该文提出一种面向法律文本的实体关系联合抽取模型。该模型首先通过ON-LSTM (Ordered Neurons-Long Short Term Memory)注入语法信息，然后引入多头注意力机制分解重叠关系。相较于流水线和其他联合学习方法该文模型抽取效果最佳，在涉毒类法律文本数据集上抽取结果的F1值达到78.7%。

[3] 张明昊，张冬瑜，林鸿飞，基于HowNet的无监督汉语动词隐喻识别方法

隐喻是人类思维和语言理解的核心问题。随着互联网发展和海量文本出现，利用自然语言处理技术对隐喻文本进行自动识别成为一种迫切的需求。但是目前在汉语隐喻识别研究中，由于语义资源有限，导致模型容易过拟合。此外，主流隐喻识别方法存在可解释性差的缺点。针对上述问题，本文构建了一个规模较大的汉语动词隐喻数据集，并且提出了一种基于陈陯陷陎陥陴的无监督汉语动词隐喻识别模型。实验结果表明，本文提出的模型能够有效地应用于动词隐喻识别任务，识别效果超过了对比的无监督模型；并且，与其它用于隐喻识别的深度学习模型相比，本文模型具有结构简单、参数少、可解释性强的优点。

[4] 王晨光，林鸿飞，杨亮，闵昶榮，基于风格化嵌入的中文文本风格迁移

对话风格能够反映对话者的属性，例如情感、性别和教育背景等。在对话系统中，通过理解用户的对话风格，能够更好地对用户进行建模。同样的，面对不同背景的用户，对话机器人也应该使用不同的语言风格与之交流。语言表达风格是文本的内在属性，然而现有的大多数文本风格迁移研究，集中在英文领域，在中文领域则研究较少。本文构建了三个可用于中文文本风格迁移研究的数据集，并将多种已有的文本风格迁移方法应用于该数据集。同时，本文提出了基于DeepWalk算法与Transformer的风格迁移模型，通过预训练可以获得不同风格的隐层向量表示。并基于 LSTM构建生成端模型，在解码阶段，通过重建源文本的方式，保留生成文本的内容信息，并且引入对立风格的嵌入表示，使得模型能够生成不同风格的文本。实验结果表明，本文提出的模型在中英双语数据集上均优于现有模型。

[5] 汶东震，张帆，张晓堃，杨亮，林原，徐博，林鸿飞，软件标识符的自然语言规范性研究

软件源代码的理解则是软件协同开发与维护的核心，而源代码标识符则在软件理解中起到重要作用。本文则在梳理分析常见编程语言命名规范的基础上，提出一种全新的标识符可理解性评价标准，即标识符的自然语言规范性指标。本文首先梳理了常见的编程规范，并提出软件语素概念用来描述标识符的构建过程。在此基础上，本文提出一种结合自然语料库的标识符规范性评价方法，用来衡量软件标识符是否易于理解。最后，本文通过源代码理解任务和开源项目评估两个角度，对规范性指标进行了检验。结果表明本文提出的规范性分数能够很好衡量软件项目的可理解性。

【关闭窗口】