文本挖掘旨在从海量文本数据中挖掘出潜在的、新颖的、有价值的知识模式。它处理的数据类型主要来自文本,例如电子文档、政府公文、网页正文、科技文献、合同文本等。某种程度上也是信息检索之后的数据挖掘,在某个领域的特定数据集进行知识发现。我们早期的工作主要集中在生物医学文献的文本挖掘、科技文献(论文和专利)的文本挖掘。包括文本分类、文本聚类、文本摘要、文本主题分析、事件分析、趋势预测等方面研究。研制了专利检索和挖掘系统、跨语言检索系统、文本摘要系统等应用系统。
目前的主要研究方向:
(1) 知识图谱构建及应用
(2) 知识发现与假设生成
(3) 多模态文本表示与应用
(4) 面向生物医学的文本挖掘
(5) 智慧司法
(6) 专利挖掘
在TKDE、COLING、BIBM、Bioinformatics等重要期刊和会议上发表论文多篇。
主要研究人员:孙媛媛、杨志豪、王健、张益嘉
主要支撑的项目:
国家自然科学基金:
(1)面向社交网络的药物不良反应隐含知识发现研究,No.61572102,2016.1-2019.12
(2)基于生物医学文献的隐含知识发现方法研究,No.61272373,2013-2016
(3)面向生物医学领域的文本挖掘技术,No.60673039,2007-2009
(4)WEB文本挖掘中知识模式的提取和评价机制,No.60373095,2004-2006
国家重点研发计划:
(1)跨时空多源异构数据的融合、开放共享技术与平台,课题3:面向实体的多源信息感知融合与理解技术研究,No.2016YFB1001103,2016-2019
(2)智能辅助检察办案关键技术研究,课题3,公诉案件证据体系分析与案情辅助研判,2018YFC0830603,2018.07-2021.06
(3)智慧司法智能化认知技术研究,课题1:涉案当事人画像自动构建技术研究及系统研发,2018YFC0832101,2019.07-2022.6
(4)智能辅助检察办案关键技术研究,课题4,基于控辩焦点识别的庭审应对策略与出庭预案组建,2018YFC0830604,2018.07-2021.06