林广和 在半监督下应用在线条件随机场进行越南语命名实体识别
新闻来源:IR实验室       发布时间:2016/4/10 22:11:33

介绍

本文中主要提出一种在线学习方式(MIRA)对CRF模型参数进行学习,并在条件随机场(CRF)基础上采用bootstrapping这一半监督方式来逐渐增加带标签数据,以解决语料中带标签数据不足的问题,进而取得很好的预测效果。

线性CRF模型


 blob.png

模型训练--Margin Infused Relaxed Algorithm(MIRA)

为更好阐述MIRA算法,本文引用了文献[2]中的表述方式。

MIRA最初的想法来自于感知机(PLA, 可以看到图中PLA在出现误分类之后,权重w做出了调整,w = w + y * x (具体可以参看国立台湾大学的机器学习课程)

 

blob.png

 

为保持与文献[2]中的表述一致,我们将其转换为矩阵形式

blob.png

我们可以看到调整前后M的各个行向量之和始终为M1+M2

 

在将其推广到多分类问题上,在此之前先引入一个错误集概念:

应用到多分类中,以图中右侧为例,有k=4个类别,M1 表示(x,y)的正确分类,显然图中M2M3在错误集E中,M4不在错误集中,因此,|E|=2,根据图中左侧调整规则,得出右侧调整结果。

blob.png

 

在此基础上,我们引入了超保守这一概念

由于MIRA是由CrammerSinger2003年提出的一种在线学习的超保守算法。

MIRA具体流程如下:

blob.png

总结:MIRA每个学习周期中致力于两个目标:1)调整当前分类器,使之能正确区分当前训练样例;2)尽量微调当前分类器,而不是大幅度的改变(红色方框)。

特征选择

五类标签:人名,组织名,地名,专有名词和None

其中None表示对应词不是任何实体,比如动词或形容词。

三类特征:

1.单词标识(W)(窗口大小为5)以及其组合形式

2.拼写特征(O)(窗口大小为5):包括小写形式的单词、首字母大写、单词全部大写、是否包含数字

3.词性特征(P)以及词性和单词标识的组合特征

特征选择流程

blob.png

 

图为最终选择的特征

blob.png

 

Bootstrapping标注语料

由于文中存在大量未标注越南语语料,所以采用半监督方式来标注语料,本文采用的是Bootstrapping。具体流程详见下图:

blob.png

实验结果

 

参考文献

  [1]Pham Q H, Nguyen M L, Nguyen B T, et al. Semi-supervised Learning for Vietnamese Named Entity Recognition using Online Conditional Random Fields[C]//Proceedings of NEWS 2015 The Fifth Named Entities Workshop. 2015: 50.

  [2]Koby Crammer and Yoram Singer. 2003. Ultraconservative online algorithms for multiclass
problems.Journal of Machine Learning Research, 3:951991.

 [3]John Lafferty, Andrew McCallum, and Fernando C.N.Pereira. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In International Conference on Machine Learning (ICML).