孙聪 Cross-type Biomedical Named Entity Recognition with Deep Multi-Task Learning
新闻来源:IR实验室       发布时间:2019/3/28 13:16:09

  近年来,将多任务学习与生物领域的自然语言处理任务结合研究成为一个研究热点。随着多任务学习研究的深入,各种多任务学习方法被研究者提出,如硬参数共享、软参数共享等等。我于201810月就发表于Bioinformatics期刊的论文《Cross-type Biomedical Named Entity Recognition with Deep Multi-Task Learning》(2018.10月出版)做了一期学术主讲,和大家一起分享。

 

一、引言

1.命名实体识别

命名实体识别是一类经典的自然语言处理任务。生物领域的命名实体识别任务的目标是从生物文献中自动识别并分类实体。目前常用的研究方法是将其视为一个序列标注的问题,利用序列标注的方法来解决研究任务(如使用BIOE标签标注等)。

 

2.多任务学习

在机器学习中,我们通常关心优化某一特定指标。为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务。然后,我们通过精细调参,来改进模型直至性能不再提升。尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好。具体来说,这些信息就是相关任务的监督数据。通过在相关任务间共享表示信息,我们的模型在原始任务上泛化性能更好。这种方法称为多任务学习(Multi-Task Learning)。

 

多任务学习在生物领域自然语言处理任务中有广泛的应用。其动机可以归结为相关生物领域的研究任务包含丰富的生物领域相关信息,研究者可以利用这些信息来优化特定生物领域自然语言处理任务的性能。由于同时利用多种相关任务的数据来训练模型,训练好的模型往往更不易过拟合,具备更好的泛化性能。对于某些特定任务,多任务学习的效果可能会更好。

 

两种不同的多任务学习方式

 

为什么多任务学习有效?

1)隐式数据扩充:单任务学习往往会有过拟合的风险,而同时学习多个任务能够平均(降低)特定任务的噪音。

2)将注意力集中在哪些重要的特征上,因为其他任务将为这些特征的相关性和不相关性提供额外的证据。

3)窃听:对于某个任务B,某些特征G容易被学习到;但对于另一个任务A,则难以学习到这些特征。通过多任务学习,我们可以通过任务B来学习特征G,从而实现任务A窃听特征G的目的。

4)更好地泛化能力。

 

 

二、多任务学习在命名实体识别中的应用

1.主讲论文作者及团队介绍

 

2. 论文研究动机:

(1) State-of-the-art biomedical named entity recognition (BioNER) systems often require handcrafted features specific to each entity type, such as genes, chemicals and diseases.

(2) Although recent studies explored using neural network models for BioNER to free experts from manual feature engineering, the performance remains limited by the available training data for each entity type

 

3. 命名实体识别问题定义

Let Φ denote the set of labels indicating whether a word is part of a specific entity type or not. Given a sequence of words w = {w1, w2, ... , wn}, the output is a sequence of labels y = {y1, y2, ..., yn}, yi Φ. For example, given a sentence “.... including the RING1 ...", the output should be “... O O S-GENE ..." in which “O" indicates a non-entity type and “S-GENE" indicates a single-token GENE type.

 

4.单任务模型

(1)       模型包含3层:character-level Bi-LSTM layerword-level Bi-LSTM layer, CRF layer

(2)       优势:能够通过character层来推断out-of-vocabularyword 例如,尽管只有“RING1”在训练集中出现过,模型仍然能够推断出“RING2”大概率表示一个基因符号。

 

5.多任务模型

生物领域命名实体识别任务的一个主要限制是标注数据的有限可用性。为此,作者提出了一种多任务学习方法,通过在不同实体类型的数据集上训练不同的命名实体识别模型,并通过在这些模型之间共享参数来解决此问题。我们假设所提出的方法可以更有效地使用数据,并鼓励模型以更有效和通用的方式学习wordcharacter(在多个语料库之间共享)的表示。

多任务学习的损失函数为

λi 是一个控制每个数据集分布的超参数。论文中将λi 设置为1

 

我们提出了三种不同的多任务模型。 这三个模型的不同之处在于模型参数的哪一部分(θwθcθo)在多个数据集之间共享。

MTM-Cθc在不同任务之间共享。

MTM-Wθw在不同任务之间共享。

MTM-CW,在该模型中,θcθw在不同任务之间共享。

三、实验设置

1.预处理

使用IOBES对单词标签进行编码,即“B-Gene”, “I-Gene”,  “E-Gene” , “S-Gene” , “O”

 

2.数据集

BC2GM: Gene mention recognition task, semi-supervised learning method (Ando, 2007).

BC4CHEMD: Chemical entity mention recognition task, CHEMDNER system (Lu et al., 2015).

BC5CDR: Chemical and Disease mention recognition task, TaggerOne system (Leaman and Lu, 2016).

NCBI-Disease: Disease name recognition and normalization, TaggerOne system (Leaman and Lu, 2016).

JNLPBA: Biomedical entity (gene/protein, DNA, RNA, cell line, cell type) recognition, hidden markov model (HMM).

 

3.评估指标

只有实体边界和实体类型都正确才算匹配正确(严格匹配)

评价公式:macro-averaged F1

 

4.预训练词向量影响

embedding.jpeg

 

5.实验参数

GPU: GeForce GTX 1080

learning rate: 0.01

decay rate: 0.05

dimensions of word embedding: 200

dimensions of character embedding: 30

character- and word-level Bi-LSTM layers hidden: 200

 

6.模型变化的表现

 

7.与基准模型的比较

F1 scores of three multi-task models. Bold: best scores, *: significantly worse than the MTM-CW model (p 0.05), **: significantly worse than the MTM-CW model (p 0.01)

 

 

Results show that the best performing multi-task model is MTM-CW, indicating the importance of morphological information captured by character-level BiLSTM as well as lexical and contextual information captured by word-level BiLSTM

 

 

8. 整合生物医学实体词典

比较MTM-CW在添加和不添加词典时的性能

用字典后处理去匹配'O'-labeled实体,以减少误报率。

将字典提供的附加信息应用到word-level Bi-LSTM层中。

 

 

四、结论

1.训练时间比较

All of the neural network models are trained on one GeForce GTX 1080 GPU.

Compare the average training time (seconds per sentence) of our method on the 5 main datasets with the baseline models.

 

STM   0.71 s/sent

Lample & Habibi   1.59 s/sent

Ma and Hovy   0.95 s/sent

MTM-CW   0.75 s/sent

 

2.负例分析

 

3.论文研究意义

1)作者提出一种多任务学习方法来处理生物领域的命名实体识别问题。

2)作者提出的方法在生物领域命名实体识别数据集上表现优于state-of-the-art systems,并且尽管简单且不需要手动特征工程,但所提出的方法在基准BioNER数据集上的表现优于最先进的系统和几个强大的神经网络模型。

3)作者通过详细分析表明,多任务模型实现了强大的性能,只是略微增加了训练时间。同时,通过实验确认了作者提出方法的大量性能增益来自于在生物领域命名实体类型之间共享的字符和单词级信息。

 

 

参考文献

[1] Wang X, Zhang Y, Ren X, et al. Cross-type Biomedical Named Entity Recognition with Deep Multi-Task Learning[J]. 2018.

 

[2] Ruder S. An overview of multi-task learning in deep neural networks[J]. arXiv preprint arXiv:1706.05098, 2017.