GRAPH ATTENTION NETWORKS 部分翻译

原文: Veličković, Petar, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, and Yoshua Bengio. "Graph Attention Networks." arXiv preprint arXiv:1710.10903 (2017).

Abstract

Introduction

CNNs已经被成功应用于处理很多问题,如图像分类,语义分割和机器翻译.这些问题潜在的数据表示都有类网格的结构(grid-like structure).这些架构通过将自身应用在所有输入位置上,可以有效地重用具有可学习参数的局部滤波器(local filters).

但是,许多有趣的任务涉及的数据不能用网格结构表示,而是存在于不规则的空间中.例如,3D mesh,社交网络,电讯网络,生物网络和脑连接体.此类数据通常可以用图(graph)的形式来表示.

文献中已经有了一些扩展神经网络以处理任意图结构的尝试.早期的工作使用递归(recursive)神经网络来处理用有向非循环图表示的数据.GNNs(Graph Neural Networks)被作为一种可以处理更常规图结构(如,循环,有向和无向图)的递归神经网络的推广(generalization)而提出.GNNs包含传递节点状态直到平衡的迭代操作,随后是神经网络,负责基于每个节点的状态输出结果.这个想法被Li等人采用并完善,他们提议在传递(propagation)过程中使用GRU.

然而,研究人员对于将卷积推广应用到图领域兴趣大增.这个方向的进步通常被分为基于谱和非基于谱的两种方法.

一方面,基于谱的方法使用图的谱表示,并且被成功应用于节点分类.Bruna等人的研究中,将卷积应用在图的拉普拉斯矩阵特征分解后的傅里叶域,导致了潜在的大量计算和非空间(non-spatially)的本地滤波器.这些问题被后续研究所解决.Henaff等提出了具有平滑系数的谱滤波器参数化方法以使滤波器在空间本地化(spatially localized).随后,Defferrard等提出一种通过切比雪夫展开图的拉普拉斯矩阵的滤波器近似方法,这种方法避免了计算拉普拉斯矩阵的法向量,并且产生空间本地化的滤波器.最终,Kipf通过将滤波器作用范围限制在节点的1-近邻以简化了之前的步骤.但是,目前提到的所有的基于谱的方法,学到的滤波器都依赖拉普拉斯矩阵的特征基(eigenbasis),也就是依赖图的结构.因此,在一个特定图结构训练的模型不能直接应用到一个不同的图结构的上.

另一方面,我们还有非基于谱的方法.这种方法直接在图上定义卷积操作,作用在空间相近的近邻节点簇(groups of spatially close neighbors)上.这些方法的一个挑战是定义一种适应不同大小(sized)近邻节点簇并且保持CNN权重共享性质的操作(operator).在一些案例中,这需要为每一个节点度(node degree)学习一个特定的权重矩阵,在为每个输入通道和邻居度(neigborhood degree)学习权重时使用过渡矩阵(transition matrix)定义邻居,或者是提取并规范化邻居使其具有固定数目的节点.Monti等提出了一种混合CNN模型 - MoNet,这是一种提供CNN同意推广到图结构的空间方法.最近,Hamilton等提出了GraphSAGE,这是一种计算节点推理(inductive)表示的方法.该方法对每个节点采样固定数目的邻居,然后在其上作用一个特定的累加器(如对所有邻居节点的特征取平均或将结果输入一个RNN),这种方法在若干大规模推理基准测试数据集中取得了令人印象深刻的性能.

注意力机制几乎已经成为大量基于序列任务的实际上(de facto)的标准.注意力机制的一个优势是它可以处理可变大小的输入,集中注意在输入的最相关部分来做决定.当注意力机制用在单序列中计算表示,通常被称作self-attention或intra-attention.和RNN或CNN一起,self-attention已被证明对于机器阅读和学习句子表示的任务有效.但是,Vaswani等指出self-attention不仅仅只可以提高基于RNN或CNN方法的性能,它同样足可以在机器翻译任务中构建一个强大的模型达到当前领先(state-of-the-art)水平.

备注

In logic, statistical inference, and supervised learning, transduction or transductive inference is reasoning from observed, specific (training) cases to specific (test) cases. In contrast, induction is reasoning from observed training cases to general rules, which are then applied to the test cases. The distinction is most interesting in cases where the predictions of the transductive model are not achievable by any inductive model. Note that this is caused by transductive inference on different test sets producing mutually inconsistent predictions.
[Refer to: wikipedia ]