情感计算组
研究方向: 情感分析与观点挖掘(Sentimental Analysis and Opinion Mining)

情感计算旨在赋予计算机观察、理解和生成各种情感的能力,情感表达方式主要是文字、语音以及多模态数据。目前文本情感计算局限于褒贬二义的倾向性分析,方法以统计学习为主,缺乏情感语义资源的支撑和认知语言学的指导。我们研究目的旨在以多情感的语义资源为基础,以认知语言学为指导,进行文本的情感识别和情感迁移的研究。并将其应用在意见挖掘、产品评论和舆情监控等方面。

研究方向:

(1)情感资源建设:情感词汇本体、情感语料库、情感常识知识库以及情感词汇搭配词典。为进一步的情感分析和观点挖掘提供强有力的资源保障。目前建设已经初具规模,取得了一定成效。

情感词汇本体:

将情感分为7大类,20小类,情感词汇本体通过一个三元组来描述:Lexicon={B,R,E},其中B表示词汇的基本信息,R表示词汇间的同义关系,E表示词汇的情感信息,是情感词汇本体中比较重要的部分。

情感语料库:

选择的语料源包括小学教材(人教版)、电影剧本、童话故事、文学期刊、网络博客等。在风格方面,小学教材等用词比较规范、严谨,而电影剧本和网络文本等则口语特征比较明显。标注集的选择是在TEI(Text Encoding Initiative)的基础上,结合情感标注的特殊需求制定的。设计了标注工具,制定了标注过程中的质量监控规范;标注的粒度有词汇、语句和篇章三个等级。目前已经标注完成近四万句、一百万字的语料。

情感常识知识库:

情感是在一定语境下(包括地域、时代、宗教、传统、人际关系和环境等)所具有的相对稳定的情绪共性。因此如果单纯依赖类似于有限的动词框架体系不能很好地完成情感语义的辨识,必须建立获取人类情感的常识知识库,建立基于语境的情感常识表示模型。

考虑到常识库建设的长期性和艰巨性,我们把常识库界定在情感表达的范围内,通过情感词汇作为触发器,获取相关的常识知识。总体思路是利用情感词汇本体(AWO)、情感语料库(ATC),借鉴现有的英语常识库(ConceptNet),以大规模的网络文本资源为素材,以主体在一定语境下的情感产生、变化规律为主要内容,对其形式化表示得到基本的情感常识知识。

(2)情感迁移分析:人的情感活动就是在情感空间的各种状态之间的转移过程,因此在给定的情感空间基础上,研究情感迁移规律对于更好地完善情感语义标注、预测和推断新的情感状态以及情感生成都是十分重要的。研究的重点是情感迁移规律和情感之间的极性关系。情感迁移涉及的重要问题之一就是情感中具有相反意义的极性关系,即具有最小迁移概率的接续关系。我们从大规模情感语料库中自动获取情感的极性关系和迁移规则,通过否定匹配,把情感变为相反极性的情感,可以在一定程度上提高情感计算的准确率。

(3)基于情感图式的语篇情感分析机制

要充分、透彻地研究人的情感,应该从认知的角度出发,考察情感的发生机制和规律。根据拉扎勒斯的认知-评价理论,情感是个体与环境相互作用的产物,这种作用是通过评价和应付来完成的。认知的基础是认知语境,认知语境涉及到场合、上下文、知识和社会心理表征,认知语境以“心理图式”(Psychological Schema)为基本单位,是真实世界的状态、事件或行为的典型结构概念化或经验化的结果,是基本行为单位的认知结构。图式的功能:一是解释新信息,从而获得有效的推论;二是提供某些事实,填补原来知识的空隙;三是对未来可能发生的事的预期加以结构化,以便将来有心理准备。

语篇情感分析提供的结果根据需求不同,结果可以分为如下几类:一是将情感映射到极性(褒贬二义),进而提供总体的倾向性水平;二是关于某个主体的情感链和预测的情感值;三是关于对象的意见集合以及总体评价。

(4)观点挖掘和舆情分析:利用情感分析技术和情感语义资源,面向互联网海量的在线评论,主要针对产品、音乐、电影和博客等,分析产品的属性评价,生成产品的评价摘要;利用主观评价,结合用户的行为,进行信息推荐;统计博客的支持率和反对率,进而计算博主的个人声誉度。也可以结合话题跟踪和检测技术,发现感兴趣的话题,建立话题的传播模型,计算话题的网络各个方面的倾向性,进行舆情分析。

该研究领域获得了国家自然科学基金的支持《基于认知语境的文本情感计算模型及其应用》以及教育部博士点基金的支持。