李青青 Deep learning for drug-drug interaction extraction
新闻来源:IR实验室       发布时间:2018/4/23 16:37:00


1. 介绍

药物-药物相互作用(DDI)是两种药物伴随给药时,一种药物协同或拮抗另一种药物活性的情况。在先前服用特定剂量的药物的个体中,服用另一种药物可能突然改变之前的药物的运输机制。这种突然的变化可能会改变已知药物的安全性和有效性。例如,特非那丁是一种常用的抗组胺剂,旨在阻止过敏性鼻炎的影响。不幸的是,几名服用特非那丁的心脏病患者,在服用抗真菌剂酮康唑时常常导致死亡。因此,提取DDI有关的信息至关重要。

虽然一些DDI可以在已知的药物相关数据库中找到,例如DrugBank,但是大多数信息仍然隐藏在科学文章中。自动DDI提取技术旨在以高效率和高准确性从文本中自动发现DDI,现在越来越成为手工提取DDI的有效替代方案。如果没有自动化的DDI提取工具,医生、药剂师和研究人员很难从大量不断增长的生物医学文献中提取DDI关系。

由于人工处理这些生物医学关系需要时间和成本,人们越来越有兴趣开发用于从生物医学文本中自动提取生物医学关系的计算方法。 生物医学关系抽取的目的是利用自然语言处理(NLP),机器学习和深度学习方法自动提取生物医学关系,并为生物医学研究的各个领域做出贡献。

2. 相关工作

在过去的十年中,生物医学关系提取已经做出了巨大的努力。一些计算方法已成功应用于生物医学文本的自动关系提取,包括基于模式的方法,基于特征的方法和基于内核的方法。例如,Segura-Bedmar等人提出了一种基于语言模式的方法从生物医学文本中提取DDI。 Miwa等人构造了丰富的特征,其中包括词袋(BOW)特征,最短路径特征和依存图特征,用于PPI提取任务。由于候选句的依存关系图和句法树为关系抽取提供了有价值的句法信息,因此已经成功地实现了几种基于内核的方法,如全路径内核和图内核方法用于在PPI和DDI提取任务中充分利用依赖关系图或句法树。基于模式的方法主要基于生物医学关系提取任务的特征来构建模式或规则。然而,由于语言表达的多样性,模式或规则通常过于严格,无法完全捕捉语义和句法释义。因此,基于模式的方法总是遭受低召回率。基于特征的方法需要提取和构造词法和句法特征的变化,而基于内核的方法需要设计合适的核函数。特征提取和合适的核函数设计都是非常依赖技能的任务。

最近,基于深度神经网络的方法在自动特征学习中表现出令人惊讶的潜力,并在几个生物医学NLP任务中取得了最先进的性能。卷积神经网络(CNN)和递归神经网络(RNN)是两个主要的神经网络结构,并已成功应用于生物医学关系提取。然而,在生物医学关系任务中,CNN和RNN之间存在一些显着差异。 CNN模型可以捕获基于卷积运算的局部特征,更适合处理短句子序列。相反,RNN模型擅长学习长期依赖性特征,它们更适合处理长句子。如何将CNN和RNN的优势结合起来是提高生物医学关系提取性能的关键。在通用领域,Vu等人分别使用CNN和RNN提取基于句子序列的关系。然后,使用投票过程来结合CNN和RNN的结果。周等人使用RNN捕获句子序列和整合CNN的整个重新呈现以获得用于联合提取关系和实体的高级特征向量。然而,生物医学文献中的一些句子非常长且复杂。深度神经网络很难仅从句子序列中学习足够的特征。依存关系图和句法树在关系抽取任务中是有价值的,结合依存图或句法树中的重要词汇和句法信息将有助于生物医学关系的分类,特别是对于长而复杂的句子。

3. 论文一:A hybrid model based on neural networks for biomedical relation extraction

(1)模型介绍:

该工作中,使用word2vector工具,在PMC语料上训练词向量。给定原始的句子序列,首先使用Stanford  parser产生句子的依存句法信息,然后使用Dijkstra’s  algorithm在依存关系图中找到两个实体之间的最短路径。将最短路径上的单词序列提取出来形成依存单词序列,将最短路径上的关系词提取出来形成依存关系序列。所以输入序列就由原始句子序列、依存单词序列和依存关系序列组成。

然后将输入序列映射到到对应的词向量表中,形成各自的输入矩阵。将原始句子序列矩阵由词向量和位置向量拼接而成,输入到双向LSTM网络中进行训练。最短路径单词序列由词向量和位置向量拼接而成,输入到CNN网络中进行训练。最短路径的关系矩阵输入到CNN网络中进行训练。然后将双向LSTM和CNN输出的特征拼接起来,送到输出层softmax进行分类。

(2)实验结果说明:

实验数据集是PPI和DDI2013数据集。

该方法结合了RNN和CNN的优势,在PPI和DDI数据集上取得了较高的F值。错误的预测结果可以分为两类:第一类是由于句子语法结构的复杂性造成的,比如说两个实体在不同的子句中或者两个实体之间的距离较远。第二类由于句子的并列成分和否定成分,造成了分类错误。

(3)论文小结

论文中使用了原始句子特征以及最短路径特征和依存特征来产生模型的输入,然后结合了RNN和CNN适用于不同句长的句子的优势,产生各自的特征进行拼接,在PPI和DDI数据集上取得了很好的效果。

4. 论文二:Position-aware deep multi-task learning for drug–drug interaction extraction

(1)模型介绍:

给定一个原始句子序列,输入矩阵由原始句子中的每个单词对应的词向量和相对位置向量拼接而成,然后将矩阵送入双向LSTM网络进行训练产生输出。除此之外,基于位置向量产生权重,与LSTM的隐层矩阵进行运算,产生带有权重的隐层矩阵。与原始的双向LSTM输出进行拼接,送入输出层进行softmax分类。输出层采用多任务学习的方法,可以同时进行DDI二分类和DDI五分类任务的预测。

(2)实验结果:

实验结果表明:该方法采用基于位置的attention机制时,在DDI二分类和五分类任务中都可以提高实验性能。此结果说明了基于位置的attention机制的有效性。另一方面,采用多任务学习方法可以提高DDI五分类的结果,但是会使DDI二分类的实验性能有所下降。原因是多任务学习方法可以有效的缓解数据不平衡的问题,相较于DDI五分类的标签来说,DDI二分类的数据分布相对平衡。

(3)论文小结

此方法采用了基于位置的attention机制,除此之外,还采用多任务学习的方法同时进行DDI二分类和DDI五分类。实验结果表明,此方法可以将DDI二分类的F值提高0.99%,并且将DDI五分类的实验F值提高1.51%(相较于最优的实验结果),此结果证明了该方法的有效性。

 

5. 参考文献

[1]  Zhang, Yijia, et al. A Hybrid Model Based on Neural Networks for Biomedical Relation Extraction. Journal of biomedical informatics(2018).

[2]  Zhou, Deyu, Lei Miao, and Yulan He. Position-aware deep multi-task learning for drug–drug interaction extraction. Artificial intelligence in medicine(2018).

[3]  I. Segura-Bedmar, P. Martínez, C. de Pablo-Sánchez, A linguistic rule-based approach to extract drug-drug interactions from pharmacological documents, BMC Bioinformatics 12(2)(2011)S1.

[4]  A.Raihani, N.Laachfoubi, Extracting drug-drug interactions from biomedical text using a feature-based kernel approach, J.Theor. Appl.Informat. Technol. 92(1)(2016)109.