CCL2018 评测提交:中文隐喻识别与情感分析
新闻来源:IR实验室       发布时间:2018/9/1 20:28:42


一、任务介绍

  本次中文隐喻识别与情感分析评测共分为两个子任务:

(1)中文动词隐喻识别

  众所周知,动词在句子中扮演着重要的角色,对于中文隐喻而言更是如此,隐喻通常涉及两个概念域,其构建的基础是两个概念域之间的相似性,而动词往往表征隐喻概念实体间的相互关系,因此动词是隐喻中名词实体的概念依存体,例如:“音乐凝固了小镇的建筑。”,这个句子便运用了动词隐喻,通过动词“凝固”表征了该隐喻中实体音乐和建筑的关系。因此,该子任务旨在通过对动词及其关联的名词实体的分析,实现对中文动词隐喻的识别。

(2)中文隐喻的情感分析

  中文隐喻的情感分析是对隐喻理解的重要部分,其旨在研究作者如何通过隐喻把文本话题的情感传递给读者,是一种更具挑战性的情感计算研究。隐喻是典型的非字面表达,常常通过隐晦、间接的语言表达情感。例如在句子“你就是个备胎”中,并没有情感词汇出现,“备胎”的字面义也没有情感因素,但其隐喻义“排在第二的替补”却能传递出说话者不满、生气的负面情感。因此,该子任务旨在通过对隐喻的内容与语境的分析,实现对中文隐喻的情感分析。

  中文隐喻的情感分类主要有7大类,21小类。大类主要有乐、好、怒、哀、惧、恶、惊,小类主要有快乐、安心、尊敬、赞扬、相信、喜爱、祝愿、愤怒、悲伤、失望、疚、思、慌、恐惧、羞、烦闷、憎恶、贬责、妒忌、怀疑和惊奇。详细信息请查看大连理工大学信息检索实验室的情感词汇本题库(http://ir.dlut.edu.cn/EmotionOntologyDownload)。

 

二、提交格式要求

  该子任务最终需要提交的结果文件为无BOM的以utf-8为编码格式的CSV文件,具体格式为:CSV文件的分隔符使用Tab即`\t`符号,每行结尾的换行符为`\n`。其中,首行为ID\tLabel\n,每行以id\tLabel\n 为格式。

  提交CSV命名要求:参赛队名_任务名.csv

  如:参赛队名为“CCL2018”的队伍提交的文件名为“CCL2018_识别任务.csv”(对应于子任务一)以及“CCL2018_情感分析.csv”(对应于子任务二)。

 

三、提交时间及方式

  每支队伍可于9月9日、9月16日、9月23日、9月30日,截止每周日晚上十点提交结果。每支队伍在每个星期最多仅可提交三次,并按照最后提交的结果计算排名。于9月10日、17日、24日、10月1日下午五点前公布在网址(http://ir.dlut.edu.cn/)中。

  提交方式为发邮件,中文隐喻识别与情感分析任务发送至邮箱diaoyufeng#mail.dlut.edu.cn

 

四、排名计算方式

  其中,对子任务一(中文动词隐喻识别)以及子任务二(中文隐喻的情感分析)分别计算排名。

(1)中文动词隐喻识别

  该子任务是二分类任务,标签有:动词隐喻(Label=1)、名词隐喻(Label=2)和负例(Label=0)。该子任务采用F1值进行评价。具体公式如下:

F1.png

(2)中文隐喻的情感分析

  该子任务是七分类任务,标签有:乐(Label=1)、好(Label=2)、怒(Label=3)、哀(Label=4)、惧(Label=5)、恶(Label=6)、惊(Label=7)。该子任务采用宏平均(Macro-Averaging)进行评价。宏平均首先对每一个类统计指标值,然后对所有类求算术平均值。具体公式如下:

macro_f.png

F_i.png

 

五、声明:

1.本次评测使用的数据集由DUTIR提供,仅限于本次技术评测使用,未经许可不能作为商业用途或其他目的。

2.训练集数据用于模型的学习,评测集用于最终的效果评测。其中评测集的标签信息不公开发布,用于组委会进行最终评测。

3.如需使用本数据集进行课题研究及论文发表,请与DUTIR联系:irlab@dlut.edu.cn。

4.数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。最终解释权归于CCL与DUTIR。

5.仅允许使用所有参赛者均可获得的开源代码、工具以及外部数据。