药物知识小组调研报告-综述与语料收集
新闻来源:IR实验室       发布时间:2015/12/4 10:19:12

    药物副作用发现小组第一次组会,小组成员分别汇报了近期论文阅读情况、研究领域综述以及知识发现相关的数据集、语义资源(字典、数据库等)、平台和工具等。以下按发言顺序排列:

 
申晨 生物医学事件抽取综述
将当前的生物医学事件抽取技术按照不同方法的类型,分为监督学习方法、半监督学习方法和深度学习方法以及其他非机器学习方法几类。对于其中每一大类问题, 分别以其有代表性的方法为例,介绍相关语料、算法、常用工具等。

 

相关文献:

Li L, Liu S, Qin M, Wang Y, Huang D. Extracting Biomedical Event with Dual Decomposition Integrating Word Embeddings. IEEE/ACM Trans Comput Biol Bioinform. 2015.

Amit M, Mohammed H, et al. Feature Selection for Event Extraction in Biomedical. Advances in Pattern Recognition (ICAPR), 2015.

Zhou D, Zhong D. A semi-supervised learning framework for biomedical event extraction based on hidden topics. Artif Intell Med. 2015;64(1):51-8.

Munkhdalai T, Namsrai OE, Ryu K. Self-training in significance space of support vectors for imbalanced biomedical event data. BMC Bioinformatics. 2015;16 Suppl 7:S6.

Thien H. N., Ralph G. Event Detection and Domain Adaption with Convolutional Neural Networks. ACL 2015, 365–371.

Yubo Chen, Liheng Xu. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks. ACL 2015 167-176.

 
郑巍 关系抽取综述
介绍了当前关系抽取方法,包括DDI关系抽取方法、CID关系抽取方法等。当前方法瓶颈、预测和解释DDI交互的数据源、药物相关的语料、Adverse Drug Event相关语料等。
 

相关文献:

Segura-Bedmar I., Martínez P. and de Pablo-Sánchez C. A linguistic rule-based approach to extract  drug-drug interactions from pharmacological documents. BMC Bioinformatics. 2011, 12:S1.

Segura-Bedmar I., Martínez P. and de Pablo-Sánchez C., Using a shallow linguistic kernel for drug-drug interaction extraction. Journal of Biomedical Informatics, 2011, 44(5):789-804

Bisgin H, Liu Z, Fang H, et al. Mining FDA drug labels using an unsupervised learning technique-topic modeling. BMC Bioinformatics, 2011, 12(S10): S11.

 

李正光 药物不良反应研究进展

    介绍了各种机器学习方法在药物不良反应发现中的应用。介绍了相关生物医学领域的语料资源以及工具、公开数据集等。

 

相关文献:

X. Liu, U. States, J. Liu, and H. Chen, "Identifying Adverse Drug Events from

Health Social Media : A Case Study on Heart Disease Discussion Forums," pp.

1-9.

A. Henriksson, J. Zhao, and H. Dalianis, "Modeling Electronic Health Records in

Ensembles of Semantic Spaces for Adverse Drug Event Detection," 2015.

H. Dalianis, M. Hassel, A. Henriksson, and M. Skeppstedt, "Stockholm EPR

Corpus : A Clinical Database Used to Improve Health Care," Swedish Lang.

Technol. Conf. 2012 Stock., pp. 17-18, 2012.

M. Rastegar-mojarad, R. K. Elayavilli, D. Li, R. Prasad, and H. Liu, "A new

method for prioritizing drug repositioning candidates extracted by

literature-based discovery," pp. 669-674, 2015.

S. Katragadda and R. Benton, "Detecting Adverse Drug Effects Using Link

Classification on Twitter Data," pp. 675-679, 2015.

A. Benton, L. Ungar, S. Hill, S. Hennessy, J. Mao, A. Chung, C. E. Leonard, and J.

H. Holmes, "Identifying potential adverse effects using the web: a new

approach to medical

 

郭凯 论文阅读综述

    介绍了药物不良反应发现的研究背景、当前研究中使用的各类数据集、相关工具、主流的研究方法等。

1.      FDA(Food and Drug Administration) 美国的疾病预防与控制中心,提供了大量的药物试用报告。

2.      CHV(The Consumer Health Vocabulary)主要提供了用户使用的非专业的医学词汇与专业词汇之间的对应关系,它可以将不同的口语表达映射到对应的专业词汇上,因此在文本挖掘领域非常有用,也可以用它来拓展词汇表。

3.      MedDRA (The Medical Dictionary for Regulatory Activities) 是由国际性质的监管部门和制药行业联合制作的关于不良反应的词表,且各个不良反应词条都制作了对应的编码,可以进行查询与检测等。

4.      SIDER(The public Side Effect Resource)包含了个内容为药物和其对应的不良反应的列表,大约有888个药物与1450种不良反应条目,该列表的数据来源于不同的数据集的整理,例如FDA报告等。

5.      The Canada Drug Adverse Reaction Database or MedEffect 包含了10192个药物与3279中不良反应之间的联系集合,可以用来制作不良反应的词表。

6.      SNOMED CT (SNOMED Clinical Terms) 一个庞大的医学概念词典,它具有很高的权威性,已经被美国、欧洲、亚洲等多个国家和地区作为参考术语,它包含了超过300000医学概念所对应的格式化的定义、编码、术语、同义词。

7.      UMLS(The Unified Medical Language System)包含了健康与生物方面的词汇集合,整理的数据库包括了MedDRA、SNOMED CT等,同时CHV与UMLS还提供了概念与各个资源之间的对应关系,更重要的是它还提供了语义网络,为各个概念根据语义关系建立了连接,每个概念都被标注了一个或多个语义类型。

8.      ATC(Anatomical Therapeutic Chemical) Code 将药物按照它们的治疗用途与化学特性进行分类。

9.      SemMedDB(Semantic Medline Database)包含了70 million对的结构,这些是提取自基于规则的系统SemRep,每对结构都是主谓宾结构的三元对,比如A Drug causes headache. 主语和谓语来自于UMLS元词库,谓词来自于UMLS的语义网络,一共有三十多种谓词诸如:affects、causes、associated with、treats等,除这些之外 有一些负面情绪的谓词来表示主宾之间的负面关系。

10.   CTD(Comparative Toxicogenomics Database)一个包含了大量的drug-disease 的关系对。

11.   DrugBank database 包含了6711种药物以及2159个副作用关系对

 

相关文献:

Robert Leaman,Lura Wojtulewicz,Ryan Sullivan, Towards Internet-Age Pharmacovigilance: Extracting Adverse Drug Reactions from User Posts to Health-Related Social Networks, in the Proceeding of ACL2010 workshop on Biomedical Natural language Processing, 2010, 117-125,Sweden.
Christopher C. Yang,Ling Jiang,Haodong Yang,Xuning Tang,Detecting Signals of Adverse Drug  Reactions from Health Consumer Contributed Content in Social Media, ACM SIGKDD Workshop on Health Informatics(HI-KDD 2012),August,12-16,Beijing,China
H. Yang and C. C. Yang, Harnessing social media for drug-drug interactions detection, in the proceedings of 2013 IEEE International Conference on Healthcare Informatics (ICHI2013),2013, 22-29.
A. Metke-Jimenez, S. Karimi, and C. Paris, Evaluation of text-processing algorithms for adverse drug event extraction from social media. in the Proceedings of the first international workshop on Social  media retrieval and analysis, 2014,15-20.

 

李志鹏 知识发现学习报告

介绍了隐含知识发现的研究目的、模型、相关资源、研究方向等。

2. 算法模型与研究思路

2.1.从模型的角度可以分为

          ABC

          ANC

2.2.从研究思路的角度可以分为

开放式算法(Open discovery):是一个假设的过程,从关系模型的部分一个概念出发,去寻找与其相关的另外个概念。
    闭合式算法(Closed discovery):是一个验证性的过程,已知两个概念 C 和 A,当研究者去寻找两者之间的 关系、阐明 A 对 C 有效的病理时,可以采用闭合式发现。

3 相关资源与技术

3.1 生物医学文献
    2.1.1 MEDLINE
    2.1.2 UMLS
    2.1.3 MeSH

3.2   生物文献处理工具

        2.2.1 MetaMap
        2.2.2 SemRep

3.3 可视化工具
    2.3.1 JUNG
    2.3.2 Gephi

4.研究方法

4.1比值失衡测量法
   4.1.1 报告比值比 ( reporting odds ratio, ROR)

   4.1.2  比例报告比值比 ( proportional reporting ratio,PRR)
4.2 贝叶斯法
4.3 决策树方法
4.4 关联规则 Apriori 算法

4.5 基于语义关系的算法

 

相关文献:

N. Kang, B. Singh, C. Bui, Z. Afzal, E. M. Mulligen, J. Kors. Knowledge-based extraction of adverse drug events from biomedical text. BMC Bioinformatics 2014, 15:64.
Bisgin H, Liu Z, Fang H, et al. Mining FDA drug labels using an unsupervised learning technique-topic modeling. BMC Bioinformatics, 2011, 12(S10): S11.
Yu K, Zhang J, Chen M, et al. Mining hidden knowledge for drug safety assessment: topic modeling of LiverTox as a case study. BMC Bioinformatics, 2014, 15(S17): S6.
杨立,王可鉴,贺林,通过索引药品说明书信息挖掘药物新用途,复旦大学学报(自然科学版),2013,52(6):755-761
Cameron D, Bodenreider O, Yalamanchili H, et al. A graph-based recovery and decomposition of Swanson ’s hypothesis using semantic predications. Journal of biomedical informatics, 2013, 46(2): 238-251
龚乐君,韦有兵,谢建明等,一种面向基因与疾病关系的文本挖掘方法,东南大学学报(自然科学版),2010,40(3):486-490
周峰,林鸿飞,王健等,基于文献的知识发现:一个面向H1N1的研究,情报学报,2011, 30(10):1044-1052
周峰,林鸿飞,杨志豪,基于语义资源的生物医学文献知识发现,情报学报,2012, 31(3):268-274