刘海峰 基于文本上下文来学习网络embedding的关系模型
新闻来源:IR实验室       发布时间:2017/12/20 0:00:00

这周主讲的论文题目为《CANE: Context-Aware Network Embedding for Relation Modeling》,基于文本上下文来学习网络embedding的关系模型,发表在ACL2017会议上,作者来源于清华大学智能技术与系统国家重点实验室,作者为:Cunchao Tu, Han Liu, Zhiyuan Liu, Maosong Sun。论文主要研究和改进现有的复杂网络embedding的方法,传统的网络embedding方法只注重于网络结构,但是忽略了网络节点上所包含的信息,不能很好的捕获不同节点对于网络embedding的贡献度。例如下图所示:

12

有一篇paper共计有三个合作作者,三个作者均从事于NLP领域的研究,但左边作者注重于语法分析的研究,右边作者注重实用深度学习进行机器翻译,虽然左右作者均与中间作者有合作关系,但二者的研究方向存在明显的差异,使用传统的Network Embedding方法学习得到的向量在空间上是相似的,与事实并非完全一致,因此学习Network Embedding需要注重不同节点自身对于网络的影响。

作者针对以上假设提出了基于网络节点上下文的Network Embedding方法,为完整的捕获网络中的信息,给出了如下两个定义:

1、 Context-free embedding 与上下文无关的embedding

2、 Context-aware embedding 注重上下文的embedding

目前有关Network Embedding有关的研究有(2013,Mikolov,Skip-Gram);( 2014,Perozzi,DeepWalk); (2015, Tang,LINE); (2016,Chen,CENE)。为了很好捕获网络上下文对embedding的影响,作者提出一个新颖的方法,Mutual attention(交互式的attention)机制,该方法可以基于上下文文本学习到Embedding,具体Attention原理如下图所示,假设网络中存在节点关系

其中ABC节点分别有不同的文本信息对其进行描述,

图中每个单词都有不同的背景颜色,背景颜色越深,则这单词的权重就越大,每个单词的权重是根据计算得到的,对于关系A-B来说,A节点经过Attention机制学习后,得到A节点更加注重reinforcement Learning,而关系A-C经过学习得到A节点更加注重Machine Learning research以及complex stochastic models,可见面向不同的关系节点来说,A节点注重的研究方向也随之发生变化,而attention的目的就是学习得到面向不同对象的节点Embedding

CANE主要学习得到两种不同的Embedding,一种基于结构的Embedding,一种基于文本的Embedding,而为了更好的捕获网络中的信息,CANE最终将基于结构的Embedding与基于文本的Embedding拼接到一起,生成最终的节点Embedding

CANE目标函数为

其中

 表示基于结构对象学习得到的Embedding 表示基于文本对象学习得到的Embedding,最后将二者拼接    .

基于结构的Embedding采用目前效果比较好的Line: Large-scale information network embedding该方法2015年由微软亚洲研究院唐建提出,而基于文本的Embedding为本文的研究重点。

基于文本的目标函数为

其中α, β,γ为控制参数

基于文本的Embedding分为两种,传统的与上下文无关的Embedding方法采用CNN模型进行训练,Looking-up层对每个词进行向量化后,Convolution层进行卷积然后池化层采用Max-Pooling进行池化,再经过tanh函数激活后得到最中的embedding

Max-Pooling

而注重文本上下文的Embedding方法如下图所示:

先经过CNN卷积后,引入关系矩阵A,相乘激活得到F矩阵,对F矩阵行和列分别采用mean-pooling,然后经过softmax激活得到基于上下文的attention权值向量a,在讲向量aP相乘得到节点u的基于上下文文本的embedding,最终再与先前学习得到的基于网络结构学习得到的embedding进行拼接后,得到最终节点U的目标Embedding

实验数据集采用三个网络数据,建立了关系网络。

Cora

HepTh

Zhihu

通过与不同现有的多个模型进行比对,CANE的效果要高于其他模型,实验结果如下图所示:

QQ截图20171203154525

QQ截图20171203154515

QQ截图20171203160104

作者在链路预测和节点分类上分别对CANE的鲁棒性与准确性进行了评价,发现CANE的效果要好于其他模型。

结论:

1 提出了基于上下问文本的网络embedding方法,采用该方法可以很好的捕获网络中不同节点对向量的影响。

2 运用交互式attention 在基于文本的信息网络中应用CANE,可以发现节点文本信息的影响作用。

3 在链路预测的实验结果表明,CANE模型对于捕获节点间的关系是有效的

 

 

刘海峰

20171211日星期一