申晨 Adverse Drug Event Detection
新闻来源:IR实验室       发布时间:2015/12/7 11:09:09


相关文献:

Modeling Electronic Health Records in Ensembles of Semantic Spaces for Adverse Drug Event Detection

   

本文使用Stockholm EPR语料,将其以病人为单位组织成Healthcare episode,每个episode包含clinical notes, drug codes(ATC), diagnosis codes(ICD-10), clinical measurement等四种数据类型。其中diagnosis需在语料集中出现10次以上,以便有足够样本作出判断。

 

 

将语料集中四种数据类型按时间排序,使用不同窗口大小训练语义空间。根据之前的研究成果,将一部分diagnoses标注为不良反应正例。并在未标注语料中选取与正例数量相同的样本作为负例。使用标注的episode查寻语义空间(文中使用语义空间一词指代word2vec训练得到的词嵌入),得到词向量,将词向量串联用以训练随机森林分离器。

文中通过五种实验检验本文方法:1)对比单一语义空间,ESS方法(Ensembles of Semantic Spaces集成的多语义空间)获得的提高;2)不同窗口的语义空间产生的词向量作为特征的重要性;3)对比单一语义空间,ESS方法训练得到的随机森林中决策树的平均结果准确性;4)由单一语义空间,逐个加入新的不同窗口的语义空间,以变化趋势图展示这一过程对最终结果的影响;5)对比串联词向量作为随机森林特征输入(早融合)与用不同窗口大小分别训练随机森林,再通过voting等方法融合其结果(晚融合)两种策略的优劣。

本文方法利用了未标注语料训练语义空间,使得数据的稀疏问题得到缓解。单一语义空间和本文ESS方法在标注语料上分别得到88.0%88.7%准确性。实验显示在较小的窗口大小上会产生更加重要的特征。利用本文方法训练的随机森林对比单一语义空间训练的随机森林,其中决策树的平均准确性得到了提高,是模型最终结果提高的原因。加入不同窗口的语义空间可以使单一语义空间模型的结果得到提高,其增量的大部分来源与最初加入的几个语义空间。与此前相关研究一致,晚融合模型的结果差于早融合模型。

 

2015-12-03