文本挖掘组
研究方向: 文本挖掘与机器学习(Text Mining and Machine Learning)

文本挖掘是从海量文本中挖掘出用户感兴趣的有价值的新颖的知识模式,是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程,文本挖掘涵盖多种技术,包括信息抽取、信息检索、自然语言处理、数据挖掘和机器学习。互联网的信息多样化,其中文本信息是最重要的部分,因此文本挖掘是Web内容挖掘的一种重要形式。我们根据Web文本挖掘的流程,实现了Web文本的预处理、特征提取、分类、聚类等基本挖掘任务,搭建了一个可视化Web文本挖掘平台。

同时机器学习是文本挖掘的重要工具,机器学习的效率直接影响到挖掘的效果和精度。鉴于机器学习对于文本挖掘的重要意义,更好地促进文本挖掘研究的深入进行,我们对于机器学习以及在文本挖掘中的应用进行了研究。

研究方向:

  • (1) 机器学习及其在文本挖掘中的应用
  • (2) 基于图学习的文本挖掘
  • (3) 移动搜索和微博研究

该研究领域获得了国家自然科学基金的支持《Web文本挖掘中知识模式的抽取和评价机制》以及公安部应用创新计划项目