丁泽源 Glyce: Glyph-vectors for Chinese Character Representations
新闻来源:IR实验室       发布时间:2019/3/28 13:38:38

一、引言

本论文是香农科技发表的论文,论文指出许多中文汉字都是从图片演变过来的,汉字的字形结构蕴含着丰富的信息。偏旁部首在语言任务的理解上是非常有用的。

                                             

因此就有了两种尝试,1、用五笔进行编码得到汉字的向量表示。2、在汉字上用CNN获得汉字的向量表示。很多时候在汉字上用CNN得到的向量表示会拉低模型的性能。作者提出了以下三点原因导致获得的词向量不好。(1)、没有用正确的汉字体系。中国的汉字将从容易绘画到容易书写的演变。简体汉字容易书写,但是会丢失很多的字形信息。(2)、没有用合适的CNN结构。图片分类任务的大小一般是800*600,而汉字主要是12*12,所以汉字需要更特殊的CNN结构来提取汉字特征。(3)、在以往的任务中,没有利用合适的监督函数。汉字不像图片有成千上万的数据,汉字只有100多个汉字,因此防止过拟合是很重要的,因此需要设置辅助函数,以便于防止过拟合。因此就引出本文的三个创新点。

1、使用古汉字和现代简体汉字的集合,以及不同书写风格的汉字,丰富字的象形信息。

2、提出在汉字上用田字格CNN(田字格)结构。

3、通过添加图像分类损失函数来使用多任务学习方法来增加模型的泛化能力。

二、模型

1、            使用不同时期的汉字

不同时期的汉字可以获得更多的字形信息

不同的书写风格可以提高模型的泛化能力

2、            Glyce的田字格CNN结构

田字格结构对于提取汉子信息很重要。可以通过田字格得到汉字的笔画顺序和偏旁部首的位置。

输入的汉字图片经过一个卷积核为5、输出通道为1024的卷积层来获得图片的低维层次信息。然后又用核为4的最大池化层老得到2*2的输出。最后使用群卷积来获得最后的输出。

考虑到原始图像较小,最后一层采用group convolution而不是常规卷积,这样不容易过拟合。group convolution,其实就是卷积分组,原来用一个卷积的,现在分开成几个并行卷积,最后合并结果。假设上一层的输出feature mapN个,即通道数channel=N。再假设群卷积的群数目M。那么该群卷积层的操作就是,先将channel分成M份。每一个group对应N/Mchannel,与之独立连接。然后各个group卷积完成后将输出叠在一起(concatenate),作为这一层的输出channel

3、            使用图像分类作为辅助训练

为了进一步防止过拟合,图像分类采用卷积网络最后的输出进行汉子字符的分类,目标函数为:

 结合机器翻译,语言建模等不同的任务,总的训练目标函数为:

 

t为与训练epoch相关的参数,可以看出图像分类对总目标的影响随着训练的进行逐步下降。

4、            Glyce 字向量 Glyce词向量

字向量: Glyce 将来自不同历史时期的相同字符堆积形成不同的 channel,并且通过 CNN 对这些图像信息进行编码得到了 glyph 向量。得到的 glyph 向量输入到图像分类模型得到字形图像识别的损失函数。然后通过 highway network 或者全连接的方式将 glyph 向量和对应的中文 char-id 向量进行结合得到了最终的 Glyce 中文字向量。

词向量:由于中文的词都可以看成是由中文的字组成,Glyce通过充分利用组成中文词中的汉字得到更加细粒度的词的语意信息。使用 Glyce字向量的方式得到词中的对应字的表示。因为中文词中字的个数的不确定性,Glyce 通过 max pooling 层对所有得到的 Glyce 字向量进行特征的筛选,用来保持了维度的不变性。最终得到的向量通过和 word-id 向量进行拼接得到最终的 Glyce 中文词向量。

 

三、实验结果

1.Task1: 字级别语言模型

使用本文的方法提出embeding,输入LSTM,在给定前一个字预测下一个字。使用Chinese Tree-Bank 6.0 (CTB6)数据库并且采用 PPL(困惑度)作为最终的评价指标。通过使用 8 种历史字体和图像分类的损失函数,基于字级别的语言模型的 PPL(困惑度)达到了 50.67。从表中可以看出,加入图像分类任务后性能提升很多,作者认为图像分类目标推动CNN模型从不同的字体图像中提取共享的象形特征,这在理解字符语义中是必不可少的。

2.Task2: 词级别语言模型

使用Chinese Tree-Bank 6.0 (CTB6)数据库和jieba分词,在LSTM上输入本文方法提取的词向量,给定前一个词语预测下一个词语。经过对照实验,word-ID 向量+ glyce 词向量的结合在词级别的语言模型上效果最好,PPL(困惑度)达到了 175.1

3.Task3: 命名实体识别

使用 OntoNotes, MSRA resume datasets数据集,使用Lattice-LSTMs架构,将charID embeddings替换为Glyce-char  embeddings。在 CTB6 Weibo 数据上达到了新的最优的结果。在 PKU 的数据上达到了呵之前最优结果相同的结果。

4.Task4: 中文分词

使用CTB6, PKUWeibo benchmarks

5.Task5:词性标注

词性标注采用了 CTB5 CTB6UD1 的数据集。单个模型使用 Glyce 词向量在 CTB5 UD1 数据上分别超过之前的 state-of-the-art 1.54 1.36 个百分点。Glyce 单模型效果在 CTB5 UD1 上超过之前多模型集合的最优结果。

6.Task6: 句法依存分析

句法依存分析采用了 Chinese Penn Treebank 5.1 的数据。Glyce 词向量结合之前最优的 Biaffien 模型把结果在 UAS LAS 数据集上和最优结果比较分别提高了0.90.8

7.Task7: 语义决策标注

语义决策标注的实验采用了 CoNLL-2009 的数据,并且采用 F1 作为最终的评价指标。最优模型 k-order pruning Glyce 词向量超过了之前最优模型 0.9 F1 值。

image.png

8.Task8: 语义相似度

语义相似度的实验采用了 BQ Corpus 的数据集,并且采用准确率和 F1 作为最终的评价指标。Glyce 字向量结合 BiMPM 模型在之前最优结果的基础上提高了 0.97 个点,成为了新的 state-of-the-art

9.Task9: 意图识别

意图识别的任务使用了 LCQMC 的数据集进行了实验,并且采用准确率和 F1 作为最终的评价指标。通过训练 BiMPM 结合 Glyce 字向量在 F1 上超过了之前的最优结果 1.4,在 ACC 上超过了之前的最优结果 1.9

10.Task10:中文-英文机器翻译

中文-英文机器翻译任务的训练集来自 LDC 语料,验证集来自 NIST2002 语料。测试集分别是 NIST2003200420052006 2008,并且采用 BLEU 作为最终的评价指标。Glyce 词向量结合 Seq2Seq+Attention 模型,测试集上 BLEU 值达到了新的最优结果。

11.Task11: 情感分析

文本分类的任务采用了 Fudan corpus, IFeng, ChinaNews 三个数据集,并且采用准确率作为评价指标。Glyce 字向量结合 Bi-LSTM 模型在这三个数据集上分别取得了最优的结果。

12.Task12: 文本分类

文本分类的任务采用了 Fudan corpus, IFeng, ChinaNews 三个数据集,并且采用准确率作为评价指标。Glyce 字向量结合 Bi-LSTM 模型在这三个数据集上分别取得了最优的结果。

13.Task13: 篇章分析

篇章分析的任务采用了 Chinese Discourse Treebank CDTB)的数据集,并且采用准确率作为评价指标。采用了之前 SOTA 模型 RvNN Glyce 字向量,刷新了在 CDTB 数据上的准确率的最优结果。

四、结论

1、使用古汉字和现代简体汉字,以及不同书写风格的汉字,丰富汉字的象形信息。

2、提出在汉字上用田字格CNN(田字格)结构。

3、添加图像分类损失函数来使用多任务学习方法来增加模型的泛化能力。