研究室简介

   我们专注于Internet上传输内容的理解和诠释,挖掘出对于人们潜在的、有价值的、新颖的知识模式,创造人机和谐的网络环境。我们的研究方向是基于语义的搜索引擎(垂直搜索和移动搜索)基于文本的情感计算(观点挖掘和情感分析)面向生物医学领域的文本挖掘以及电子商务和电子政务等。Internet信息检索技术涉及到Web技术、自然语言处理、机器学习、认知科学等诸多理论和技术,是一个富有朝气和希望的研究领域。

   研究室坚持理论研究和实际应用相结合,和国外大学和研究机构保持良好的合作关系。营造宽松和谐的研究环境,悉心培养信息检索领域的优秀人才。鼓励学生积极参与各项学术活动,同时举办丰富多彩的文体活动,让学生受到多方面的熏陶。


搜索引擎组

随着互联网的不断普及,搜索引擎作为互联网的入口,成为人们必不可少的工具。我们的研究旨在改进目前搜索引擎的用户查询的理解、网页的排序机制,社会网络以及维基百科、标签、日志等用户行为对于搜索引擎的影响、面向领域的垂直搜索和跨语言检索。

研究方向:

  • (1)排序学习(Learning to Rank)

  • (2)查询理解和查询重构(Query Understanding, Query Reformation, Query Expansion)

  • (3)社会网络在信息检索中应用(Wiki, Folksonomy, Tag, Log)

  • (4)语言模型在信息检索中的应用

  • (5)基于语义视图的跨语言检索

该研究领域曾获得了国家863计划的支持《基于语义的跨语言垂直搜索技术的研究与实现》

组长:徐博

毕业的组员:张兰轩、付建文、李跃进、付克志、董静、刘菁菁、陈相、韩冰、苏绥(组长)、何莉、叶正、晋松(组长)、宁健、吴佳金、李志斌、王丽莎、葛艳艳、林子皓、张平、刘文飞、常天舒、姚兰、郭青(组长)

文本挖掘组

文本挖掘是从海量文本中挖掘出用户感兴趣的有价值的新颖的知识模式,是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程,文本挖掘涵盖多种技术,包括信息抽取、信息检索、自然语言处理、数据挖掘和机器学习。互联网的信息多样化,其中文本信息是最重要的部分,因此文本挖掘是Web内容挖掘的一种重要形式。我们根据Web文本挖掘的流程,实现了Web文本的预处理、特征提取、分类、聚类等基本挖掘任务,搭建了一个可视化Web文本挖掘平台。

同时机器学习是文本挖掘的重要工具,机器学习的效率直接影响到挖掘的效果和精度。鉴于机器学习对于文本挖掘的重要意义,更好地促进文本挖掘研究的深入进行,我们对于机器学习以及在文本挖掘中的应用进行了研究。

研究方向:

  • (1) 机器学习及其在文本挖掘中的应用

  • (2) 基于图学习的文本挖掘

  • (3) 移动搜索和微博研究

该研究领域获得了国家自然科学基金的支持《Web文本挖掘中知识模式的抽取和评价机制》以及公安部应用创新计划项目

组长:祖坤琳

毕业的组员:彭涛、方鸷飞、邹金凤、卢冶、闫英杰、宋丹、时达明(组长)、倪茂树、陈小宾、唐琴、梅放(组长)、张清华、李静、吴迪、张天宇、史存会(组长)、周利娟、李瑞敏(组长)、熊大平、任克江、尹杰、闫俊(组长)、杨海天、郭凯

情感计算组

情感计算旨在赋予计算机观察、理解和生成各种情感的能力,情感表达方式主要是文字、语音以及多模态数据。目前文本情感计算局限于褒贬二义的倾向性分析,方法以统计学习为主,缺乏情感语义资源的支撑和认知语言学的指导。我们研究目的旨在以多情感的语义资源为基础,以认知语言学为指导,进行文本的情感识别和情感迁移的研究。并将其应用在意见挖掘、产品评论和舆情监控等方面。

研究方向:

(1)情感资源建设:情感词汇本体、情感语料库、情感常识知识库以及情感词汇搭配词典。为进一步的情感分析和观点挖掘提供强有力的资源保障。目前建设已经初具规模,取得了一定成效。

情感词汇本体:

将情感分为7大类,20小类,情感词汇本体通过一个三元组来描述:Lexicon={B,R,E},其中B表示词汇的基本信息,R表示词汇间的同义关系,E表示词汇的情感信息,是情感词汇本体中比较重要的部分。

情感语料库:

选择的语料源包括小学教材(人教版)、电影剧本、童话故事、文学期刊、网络博客等。在风格方面,小学教材等用词比较规范、严谨,而电影剧本和网络文本等则口语特征比较明显。标注集的选择是在TEI(Text Encoding Initiative)的基础上,结合情感标注的特殊需求制定的。设计了标注工具,制定了标注过程中的质量监控规范;标注的粒度有词汇、语句和篇章三个等级。目前已经标注完成近四万句、一百万字的语料。

情感常识知识库:

情感是在一定语境下(包括地域、时代、宗教、传统、人际关系和环境等)所具有的相对稳定的情绪共性。因此如果单纯依赖类似于有限的动词框架体系不能很好地完成情感语义的辨识,必须建立获取人类情感的常识知识库,建立基于语境的情感常识表示模型。

考虑到常识库建设的长期性和艰巨性,我们把常识库界定在情感表达的范围内,通过情感词汇作为触发器,获取相关的常识知识。总体思路是利用情感词汇本体(AWO)、情感语料库(ATC),借鉴现有的英语常识库(ConceptNet),以大规模的网络文本资源为素材,以主体在一定语境下的情感产生、变化规律为主要内容,对其形式化表示得到基本的情感常识知识。

(2)情感迁移分析:人的情感活动就是在情感空间的各种状态之间的转移过程,因此在给定的情感空间基础上,研究情感迁移规律对于更好地完善情感语义标注、预测和推断新的情感状态以及情感生成都是十分重要的。研究的重点是情感迁移规律和情感之间的极性关系。情感迁移涉及的重要问题之一就是情感中具有相反意义的极性关系,即具有最小迁移概率的接续关系。我们从大规模情感语料库中自动获取情感的极性关系和迁移规则,通过否定匹配,把情感变为相反极性的情感,可以在一定程度上提高情感计算的准确率。

(3)基于情感图式的语篇情感分析机制

要充分、透彻地研究人的情感,应该从认知的角度出发,考察情感的发生机制和规律。根据拉扎勒斯的认知-评价理论,情感是个体与环境相互作用的产物,这种作用是通过评价和应付来完成的。认知的基础是认知语境,认知语境涉及到场合、上下文、知识和社会心理表征,认知语境以“心理图式”(Psychological Schema)为基本单位,是真实世界的状态、事件或行为的典型结构概念化或经验化的结果,是基本行为单位的认知结构。图式的功能:一是解释新信息,从而获得有效的推论;二是提供某些事实,填补原来知识的空隙;三是对未来可能发生的事的预期加以结构化,以便将来有心理准备。

语篇情感分析提供的结果根据需求不同,结果可以分为如下几类:一是将情感映射到极性(褒贬二义),进而提供总体的倾向性水平;二是关于某个主体的情感链和预测的情感值;三是关于对象的意见集合以及总体评价。

(4)观点挖掘和舆情分析:利用情感分析技术和情感语义资源,面向互联网海量的在线评论,主要针对产品、音乐、电影和博客等,分析产品的属性评价,生成产品的评价摘要;利用主观评价,结合用户的行为,进行信息推荐;统计博客的支持率和反对率,进而计算博主的个人声誉度。也可以结合话题跟踪和检测技术,发现感兴趣的话题,建立话题的传播模型,计算话题的网络各个方面的倾向性,进行舆情分析。

该研究领域获得了国家自然科学基金的支持《基于认知语境的文本情感计算模型及其应用》以及教育部博士点基金的支持。

组长:祖坤琳

毕业的组员:潘红艳、金珠、徐琳宏(组长)、潘宇、宋锐(组长)、陈建美、任惠、潘凤鸣(组长)、常富洋、郭巍、王宇轩(组长)、吕韶华、刁宇峰、宋艳雪、 窦彦昭、杨源、王昊(组长)、李雪妮、邰阳、任巨伟(组长)、何文译、魏现辉

生物信息组

以MEDLINE的生物医学文献为主要数据源,利用改进的编辑距离和隐马尔可夫链、条件随机域等机器学习方法,完成基因、蛋白质等的实体名字识别,进而挖掘基因、蛋白质、疾病和药物之间的相互关系,以此进行生物医学领域的假设发现,建立具有实用价值的生物医学知识发现系统。面向具体生物医学应用领域,综合利用MeSH(医学主题词)、UMLS(统一医学语言系统)和GO(基因本体)以及相应的中文生物医学主题词资源,利用基于实例的机器学习和潜在语义分析技术,建立中文生物医学文本的概念标注和信息抽取机制,将中英文相关文本统一在相同的语义视图之下,在此基础上构造双语生物医学文本的交叉挖掘模型。同时对于生物医学领域中知识模式的挖掘、检索和评价机制进行深入的研究,从而建立面向生物医学领域的跨语言文本挖掘平台。

研究方向:

(1)生物医学信息中的实体识别 对基因、蛋白质的研究是生命科学的热点,从生物医学文献中抽取基因、蛋白质名称及其功能,对于进一步发现基因、药物、蛋白质分子间联系和相互作用有着非常重要的意义。虽然关于实体名识别的研究已具有一定的历史,但是生物医学文献中的实体名命名不规范的情况要比其他文献(如新闻)严重得多,变体、缩写和嵌套等现象大量存在。因此成为当前研究的一个难点和热点。我们尝试利用改进的编辑距离、隐马尔可夫链、条件随机域等方法给出具有较高精度的实体识别算法。

(2)蛋白质关系网络构建和复合物发现 随着基因组学研究和高通量技术的飞速进步,蛋白质之间的相互作用数据迅速积累,从蛋白质相互作用网络数据中识别出蛋白质复合物,是生物体行为理解、蛋白质功能预测和药物设计的基础。本项目综合利用各种生物医学知识源,采用特征耦合泛化策略构建蛋白质的实体识别模型;使用基于语义的相似度比较解决蛋白质名标准化中的歧义问题;利用平面特征核、卷积树核以及特征耦合泛化核的复合核模型进行蛋白质交互关系抽取,从而构建高准确的蛋白质相互作用网络。在抽取蛋白质复合物的过程中,综合考虑图的拓扑结构、蛋白质复合物的生物结构和蛋白质的功能标注信息,抽取候选蛋白质复合物。为进一步提升复合物识别性能,利用机器学习方法,结合图的拓扑结构信息、关系的可信度和络合物内蛋白质相似程度对候选蛋白质复合物进行过滤,最终得到目标蛋白质复合物。

(3)挖掘基因、蛋白质、疾病和药物之间的相互关系 自从Swanson通过分析MEDLINE文献,得到镁与偏头痛之间的11个医学关联之后,许多机构和研究人员都投入这个领域进行更深入的研究。目前的研究大多是基于共现模式,这对于具有明显的关联的蛋白质和基因效果显著。但是对于不是位于同一物理单元等蛋白质和基因则需要更为深入细致的挖掘方法。我们将综合各种医学语义资源:MeSH、UMLS以及GO, 利用蛋白质和基因的上下文环境和与概念的关联程度,利用基于扩展的潜在语义索引、基于自组织神经元的聚类方法以及概念关联网络挖掘它们的相互关系。这些方法的特点不是依赖于特定的共现词汇而是依赖于上下文环境来判断两者的相似程度。 我们对于H1N1的致病基因进行了研究,取得了初步的结果。

(4)面向生物医学领域的问答系统和摘要系统 面向生物医学领域的问答系统除了基本的问答系统的特征之外,关键是领域知识的整合。相对比其他领域而言,生物医学领域的语义资源建设十分规范和完整,为我们进行文本分析处理奠定了良好的基础。像UMLS包括三个主要部分:Metathesaurus(元数据词典)、Semantic Network(语义网络)和Specialist lexicon (专家词典)。因此借助概念,通过对于基因和蛋白质所处的上下文进行标注,给出基于概念的相似度量,为寻求确切的答案提供支持。为此我们在基因提及标准化、多个知识本体的整合、概念标注和句子相似度方面做了相应的研究。

该研究领域获得了2项国家自然科学基金《面向生物医学领域的文本挖掘技术研究与应用》和《基与信息抽取技术的蛋白质相互作用网络构建及蛋白质复合物识别研究》、教育部留学人员归国科研启动基金和辽宁省博士启动基金的支持。

组长:郝辉辉

毕业的组员:李刚、刘宝艳、吴宝栋、陈冉、崔宝今、张霄、夏佞、李彦鹏、孟佳娜、周峰、安波、谢华、刘昊、谢冬、胡运翠(组长)、冀明辉、商玥(组长)、唐楠、江志俭、徐谦、王艳华、何琳娜、程亮喜(组长)、李宗耀、李浩瑞、于凤英、徐博