CCL2018 评测提交:中文幽默计算
新闻来源:IR实验室       发布时间:2018/9/1 20:40:48

一、任务介绍:

  幽默计算旨在赋予计算机识别、生成幽默的能力,它涉及信息科学、认知语言学、心理学等多个学科的交叉,在人类语言的理解乃至世界文化的交流方面,都具有重要的理论和应用价值。

本次中文幽默计算评测共分为两个子任务:

(1)中文幽默类型识别

  幽默无处不在,能理解各种幽默形式,将极大程度上地提高人机交互系统的性能。幽默的类型与幽默产生的机制密切相关,例如:“餐厅里…客人:有火鸡吗? 服务员:我就是活计。”,该幽默通过谐音的方式产生了幽默的效果。

  因此,本任务旨在通过分析幽默的产生机制,从而识别幽默的类型,具体包括对谐音幽默、谐义幽默及反转幽默三种类型幽默的识别。

(2)中文幽默等级划分

  幽默日常生活中沟通交流的重要组成部分,也是人类智慧与创造力的结晶。由于幽默特征与主观因素关系密切,“可笑或有趣”对于不同的人多具有不同的诠释,即不同的幽默往往存在着不同的幽默等级。为了研究这一现象,该任务旨在通过分析幽默的内容,探索对幽默等级划分有效的方法,即预测哪些幽默更加有趣。

 

二、提交格式要求:

  该子任务最终需要提交的结果文件为无BOM的以utf-8为编码格式的CSV文件,具体格式为:CSV文件的分隔符使用Tab即`\t`符号,每行结尾的换行符为`\n`。

  提交CSV命名要求:参赛队名_任务名.csv

 如:参赛队名为“CCL2018”的队伍提交的文件名为“CCL2018_类型识别.csv”以及“CCL2018_等级划分.csv”。

 

三、提交时间及方式:

  每支队伍可于9月9日、9月16日、9月23日、9月30日、10月7日,截止每周日晚上十点提交结果。每支队伍每个星期不超过三次提交结果的机会,计算排名按最后一次提交的结果计算。于9月10日、17日、24日、10月1日、10月8日下午五点前公布在网址(http://ir.dlut.edu.cn/)中。

提交方式为发邮件,中文幽默计算任务发送至邮箱renlu#mail.dlut.edu.cn

 

四、排名计算方式:

  子任务中文幽默类型识别以及子任务中文幽默等级划分分别计算排名。

其中,中文幽默类型识别,该子任务是三分类任务,标签有:谐音幽默(Label=1)、谐义隐喻(Label=2)和反转幽默(Label=3)。该子任务采用宏平均(Macro-Averaging)进行评价。宏平均首先对每一个类统计指标值,然后对所有类求算术平均值。具体公式如下:

clip_image001.png

clip_image003.png

  中文幽默等级划分,该子任务是二分类任务,标签有:强幽默(Label=5)、弱幽默(Label=1)。该子任务采用F1值进行评价。具体公式如下:

clip_image005.png

 

五、声明:

1.本次评测使用的数据集由DUTIR提供,仅限于本次技术评测使用,未经许可不能作为商业用途或其他目的。

2.训练集数据用于模型的学习,评测集用于最终的效果评测。其中评测集的标签信息不公开发布,用于组委会进行最终评测。

3.如需使用本数据集进行课题研究及论文发表,请与DUTIR联系:irlab@dlut.edu.cn。

4.数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。最终解释权归于CCL与DUTIR。

5.仅允许使用所有参赛者均可获得的开源代码、工具以及外部数据。