CCL2018 评测任务:中文隐喻识别与情感分析
新闻来源:IR实验室       发布时间:2018/6/2 1:38:43

包括两个子任务:

1 中文动词隐喻的识别

众所周知,动词在句子中扮演着重要的角色,对于中文隐喻而言更是如此,隐喻通常涉及两个概念域,其构建的基础是两个概念域之间的相似性,而动词往往表征隐喻概念实体间的相互关系,因此动词是隐喻中名词实体的概念依存体,例如:音乐凝固了小镇的建筑。,这个句子便运用了动词隐喻,通过动词凝固表征了该隐喻中实体音乐和建筑的关系。因此,该子任务旨在通过对动词及其关联的名词实体的分析,实现对中文动词隐喻的识别。

 

 

该子任务提供训练集和封闭的测试集,具体数量如表格所示。该子任务是二分类任务,标签有:动词隐喻(Label=1)、名词隐喻(Label=2)和负例(Label=0, 非隐喻)。该子任务采用值进行评价。具体公式如下:

 

 

该子任务最终需要提交的结果文件为无BOM的以utf-8为编码格式的CSV文件,具体格式为:CSV文件的分隔符使用Tab` \t`符号,每行结尾的换行符为`\n`

首行为ID\tLabel\n,每行以id\tLabel\n 为格式。


2 中文隐喻的情感分析

中文隐喻的情感分析是对隐喻理解的重要部分,其旨在研究作者如何通过隐喻把文本话题的情感传递给读者,是一种更具挑战性的情感计算研究。隐喻是典型的非字面表达,常常通过隐晦、间接的语言表达情感。例如在句子“你就是个备胎”中,并没有情感词汇出现,“备胎”的字面义也没有情感因素,但其隐喻义“排在第二的替补”却能传递出说话者不满、生气的负面情感。因此,该子任务旨在通过对隐喻的内容与语境的分析,实现对中文隐喻的情感分析。

 

该子任务提供训练集和一个封闭的测试集,具体数量如表格所示。该子任务是七分类任务,标签有:乐(Label=1)、好(Label=2)、怒(Label=3)、哀(Label=4)、惧(Label=5)、恶(Label=6)、惊(Label=7)。该子任务采用宏平均(Macro-Averaging)进行评价。宏平均首先对每一个类统计指标值,然后对所有类求算术平均值。具体公式如下:

该子任务最终需要提交的结果文件为无BOM的以utf-8为编码格式的CSV文件,具体格式为:CSV文件的分隔符使用Tab`\t`符号,每行结尾的换行符为`\n`

首行为ID\tLabel\n,每行以id\tLabel\n 为格式。

中文隐喻的情感分类主要有7大类,21小类。大类主要有乐、好、怒、哀、惧、恶、惊,小类主要有快乐、安心、尊敬、赞扬、相信、喜爱、祝愿、愤怒、悲伤、失望、疚、思、慌、恐惧、羞、烦闷、憎恶、贬责、妒忌、怀疑和惊奇。详细信息请查看大连理工大学信息检索实验室的情感词汇本题库(http://ir.dlut.edu.cn/EmotionOntologyDownload)

声明

1.本次评测使用的数据集由DUTIR提供,仅限于本次技术评测使用,未经许可不能作为商业用途或其他目的。

2.训练集数据用于模型的学习,评测集用于最终的效果评测。其中评测集的标签信息不公开发布,用于组委会进行最终评测。

3.如需使用本数据集进行课题研究及论文发表,请与DUTIR联系:irlab@dlut.edu.cn

4.数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。最终解释权归于CCLDUTIR

5.仅允许使用所有参赛者均可获得的开源代码、工具以及外部数据。