任璐 迁移学习——跨语言的文本分类
新闻来源:IR实验室       发布时间:2017/12/11 0:00:00


迁移学习广泛的存在人类的日常活动中。一位会骑自行车的人可以更快地学会骑电动车;熟悉羽毛球或者乒乓球运动的人比没有经验的人更容易接受网球,迁移学习就在我们身边。迁移学习不仅存在于我们的日常生活中,现在在AI中也应用广泛。

本次组会主讲的是选自ACL2017中的论文,论文的题目是《Cross-lingual Distillation for Text Classification》,作者是来自卡内基梅隆大学的Ruochen XuYiming Yang。本文是将对抗网络的思想用在了跨语言迁移学习的任务中。

主讲论文的写作动机是:因为建立在监督机器学习基础上的跨语言文本分类任务需要对不同语言的不同领域拥有足够多的标注来训练数据得到结果,但是很多语言并没有足够多的标签。举例来说,NLP在英文中发展相对成熟,英文就是一种拥有丰富的标签的语言,比如在新闻报道方面、维基百科以及酒店/产品评论中都有丰富的标签,但是许多其他语言不一定有如此丰富的大量标签数据。这些就是跨语言文本分类面临的挑战,我们如何有效的利用标签丰富的语言用来帮助标签不那么丰富的语言的文本分类?

在介绍主讲论文之前,我们首先要熟悉两篇论文《Convolutional Neural Networks for Sentence Classification》以及《Unsupervised domain adaptation by Backpropagation》。论文《Convolutional Neural Networks for Sentence Classification》是很经典的CNNNLP中句子表示的应用,CNN作为主讲论文的plug-in分类器。论文《Unsupervised domain adaptation by Backpropagation》是最初将对抗网络思想应用到迁移学习中的论文,也是主讲论文使用的主要模型。

1. Plug-in分类器——CNN

主讲论文将由Kim2014年提出的CNN[2]作为Plug-in分类器。CNN在论文[2]中的框架图如下所示:

IMG_256

在这个模型中,词嵌入(word embedding)采用的是将每个文档表示成一个n*k的矩阵,n是文档中词的个数,k表示的是词嵌入的维度。表示为:

为串联符号。w)为一个h*k的矩阵,h为窗口。经过卷积得到的特征表示为:

经过卷积层以及池化层后得到的隐层特征表示为包含了经过了卷积层后所得的参数。最后的输出为表示了此时得到的参数集合。

2. 本文的模型

本文提出了两种迁移学习知识提取模型:CLD-KCNN模型以及CLDFA-KCNN模型。

2.1 CLD-KCNN

CLD-KCNN主要分为两个步骤:

第一步,使用源语言文档训练源语言分类器,损失函数为:

表示在训练集训练后得到的参数集合,为指示函数。


第二步,在平行语料中进行进一步调参。作者假设在平行语料中目标语言与源语言具有相同的分布。损失函数如下:

微信截图_20171211204224.png

为平行语料中源语言与目标语言对应的文本对。

指的就是训练平行语料一一对应文本对后,优化后得到的参数。

这些都是在作者假设目标语言与源语言具有相同的分布下进行的,然而事实并不是这样。作者对这一现象的解释是,当MT系统(例如谷歌翻译)是一个通用的系统时,它不可避免地增加了翻译的歧义,这将导致了源语言到目标语言转换的过程中,句子表示发生了转移。

为了解决这种分布差异,作者寻求对神经分类器的特征提取部分进行调整,以便在新产生的特征空间中尽可能地接近两边的特征分布。提出了CLDFA-KCNN,将对抗训练方法用于存在的问题。

2.2 CLDFA-KCNN

这部分主要目的是找到一些可以对标签预测贡献度大,且对领域识别贡献度小的一些隐藏特征。作者引用了Yaroslav[3]等人提出的模型用于解决这个问题。模型如下图所示:

主讲论文中,训练集表示为,未标注的集合为:。本文的目标是找到一个神经网络分类器,可以很好的训练预测L的标签(训练集),同样可以提取分布相似的LU的特征。这里,作者定义了另一个分类器,可以将两个语料特征分布中相似部分最大化。也就是将源语言与目标语言共同的那部分特征留下,其他的尽量不考虑。损失函数如下:

目标是找到合适的将损失函数最小化,以及将损失函数最大化。这样抽取到的特征就是我们想要的,即对标签预测具有最大贡献且对领域区分度最小的特征。

3. 实验

主讲论文的实验是在两个基准数据集上进行实验的:1. 亚马逊产品评论;2. 中英文的Yelp酒店点评。

实验结果如下表:

4. 贡献与总结

1)提出了一种框架—CLDFA用来解决跨语言文本分类问题。

2)它具有一定的适应性,不仅构建了单一语言文本分类方法并能够适用于其他语言,允许使用来自源语言以及目标语言的大量未标记的数据

3)在对标准数据集的评价表面,实验结果比其他的要好。

5. 参考文献:

[1] Xu R, Yang Y. Cross-lingual Distillation for Text Classification[J]. ACL, 2017.

[2] Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.

[3] Yaroslav Ganin and Victor Lempitsky. 2014. Unsupervised domain adaptation by back propagation. arXiv preprint arXiv:1409.7495