1000字范文 > 论文笔记：Attention is All You Need

论文笔记：Attention is All You Need

时间：2023-12-18 10:04:21

Google于在NIPS上发表的论文。

Abstract

主流序列转导模型基于复杂的RNN或CNN，这些神经网络包含一个编码器和一个解码器。性能最好的模型还通过attention机制将编码器和解码器连接起来。我们提出一种新的简单的网络架构Transformer，仅基于attention机制并完全避免循环和卷积。对两个机器翻译任务的实验表明，这些模型在质量上更加优越、并行性更好并且需要的训练时间显著减少。我们的模型在WMT 英语-德语翻译任务上达到28.4 BLEU，超过现有最佳结果（包括整合模型）2个BLEU。在WMT 英语-法语翻译任务中，我们的模型建立了单模型新的最先进的BLEU分数41.8，它在8个GPU上训练了3.5天，这个时间只是目前文献中记载的最好的模型训练成本的一小部分。通过在解析大量训练数据和有限训练数据的两种情况下将其应用到English constituency，我们表明Transformer可以很好地推广到其他任务。

1 Introduction

在序列建模和转换问题中，如语言建模和机器翻译，循环神经网络特别是LSTM和GRU门控循环神经网络，已经被确立为最先进的方法。自那以后，许多努力一直在推动循环语言模型和编码器-解码器架构的界限。

循环模型通常是对输入和输出序列的符号位置进行因子计算（factor computation）。通过在计算期间将位置与步骤对齐，它们根据前一步的隐藏状态 h t − 1 h_{t-1} ht−1和输入产生位置 t t t的隐藏状态序列 h t h_t ht。这种固有的顺序特性阻碍样本训练的并行化，这在更长的序列长度上变得至关重要，因为有限的内存限制样本的批次大小。最近的工作通过巧妙的因子分解(factorization tricks)和条件计算(conditional computation)在计算效率方面取得重大进展，后者还同时提高了模型性能。然而，顺序计算的基本约束依然存在。

在各种任务中，attention机制已经成为序列建模和转导模型不可或缺的一部分，它可以建模依赖关系而不考虑其在输入或输出序列中的距离[2, 19]。除少数情况外[27]，这种attention机制都与循环网络一起使用。

在这项工作中我们提出Transformer，这种模型架构避免循环并完全依赖于attention机制来绘制输入和输出之间的全局依赖关系。 Transformer允许进行更多的并行化，并且可以在八个P100 GPU上接受少至十二小时的训练后达到翻译质量的新的最佳结果。

2 Background

减少顺序计算的目标也构成扩展的神经网络GPU、ByteNet和ConvS2S的基础，它们都使用CNN作为基本构建模块、并行计算所有输入和输出位置的隐藏表示。在这些模型中，关联任意两个输入和输出位置的信号所需的操作次数会随着位置之间的距离而增加，ConvS2S是线性增加，而ByteNet是对数增加。这使得学习远程位置之间的依赖性变得更加困难。在Transformer中，这种操作减少到固定的次数，尽管由于对用attention权重化的位置取平均降低了效果，但是我使用Multi-Head Attention进行抵消，具体描述见 3.2。

Self-attention，有时称为intra-attention，是一种attention机制，它关联单个序列的不同位置以计算序列的表示。 Self-attention已成功用于各种任务，包括阅读理解、摘要概括、文本蕴涵和学习与任务无关的句子表征。

端到端的记忆网络基于循环attention机制，而不是序列对齐的循环，并且已被证明在简单语言的问答和语言建模任务中表现良好。

然而，就我们所知，Transformer是第一个完全依靠self-attention来计算输入和输出表示而不使用序列对齐RNN或卷积的转导模型。在下面的章节中，我们将描述Transformer、引出self-attention并讨论它相对[17, 18](Neural GPUs learn algorithms,Neural machine translation in linear time)和[9](Convolutional sequence to sequence learning)几个模型的优势。

3 Model Architecture

（全文重点）

大部分有竞争力的神经序列转导模型（neural sequence transduction models）都有一个编码器-解码器结构。这里，编码器映射一个用符号表示的输入序列(x1,…,xn) 到一个连续的表示z = (z1,…,zn)。根据z，解码器生成符号的一个输出序列(y1,…,ym) ，一次一个元素。在每一步中，模型都是自回归（auto-regressive）的，当生成下一个时，使用先前生成的符号作为附加输入。

Transformer遵循这种整体架构，编码器和解码器都使用self-attention堆叠和point-wise、完全连接的层，分别显示在图1的左边和右边。

3.1 Encoder and Decoder Stacks

编码器：编码器由N = 6 个完全相同的层堆叠而成。每一层都有两个子层。第一个子层是一个多头自注意力（multi-head self-attention）机制，第二个子层是一个简单的、position-wise全连接前馈网络（fully connected feed-forward network）。我们对每个子层再采用一个残差连接（residual connection），接着进行层标准化（layer normalization）。也就是说，每个子层的输出是LayerNorm(x + Sublayer(x))，其中Sublayer(x) 是由子层本身实现的函数。为了方便这些残差连接，模型中的所有子层以及嵌入层产生的输出维度都为 d model d_{\text {model }} dmodel = 512。

解码器：解码器同样由N = 6 个完全相同的层堆叠而成。除了每个编码器层中的两个子层之外，解码器还插入第三个子层，该层对编码器堆栈的输出执行multi-head attention。与编码器类似，我们在每个子层再采用残差连接，然后进行层标准化。我们还修改解码器堆栈中的self-attention子层，以防止位置关注到后面的位置。这种掩码，加上输出嵌入偏移一个位置的事实，确保对位置的预测 i 只能依赖小于i 的已知输出。

3.2 Attention

Attention函数可以描述为将query和一组key-value对映射到输出，其中query、key、value和输出都是向量。输出为value的加权和，其中分配给每个value的权重通过query与相应key的兼容函数来计算。

3.2.1 Scaled Dot-Product Attention

我们称我们特殊的attention为“缩放版的点积attention”（图 2）。输入由query、 d k d_k dk 维的key和 d v d_v dv 维的value组成。我们计算query和所有key的点积、用 d k \sqrt{d_{k}} dk 相除，然后应用一个softmax函数以获得值的权重。

在实践中，我们同时计算一组query的attention函数，并将它们组合成一个矩阵Q。 key和value也一起打包成矩阵 K 和 V 。我们计算输出矩阵为：

Attention ( Q , K , V ) = softmax ⁡ ( Q K T d k ) V \text { Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V Attention(Q,K,V)=softmax(dk QKT)V

两个最常用的attention函数是加法attention和点积（乘法）attention。除了缩放因子 1 d k \frac{1}{\sqrt{d_{k}}} dk 1之外，点积attention与我们的算法相同。加法attention使用具有单个隐藏层的前馈网络计算兼容性函数。虽然两者在理论上的复杂性相似，但在实践中点积attention的速度更快、更节省空间，因为它可以使用高度优化的矩阵乘法代码来实现。

当 d k d_k dk的值比较小的时候，这两个机制的性能相差相近，当 d k d_k dk比较大时，加法attention比不带缩放的点积attention性能好。我们怀疑，对于很大的 d k d_k dk值，点积大幅度增长，将softmax函数推向具有极小梯度的区域。为了抵消这种影响，我们缩小点积 d k {\sqrt{d_{k}}} dk 倍。

（在数量级较大时，softmax将几乎全部的概率分布都分配给了最大值对应的标签。也就是说，在输入的数量级很大时，梯度消失为0，造成参数更新困难。）

（在一般任务的Encoder-Decoder框架中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子，Attention机制发生在Target的元素Query和Source中的所有元素之间。而Self Attention顾名思义，指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力计算机制。其具体计算过程是一样的，只是计算对象发生了变化而已。）

3.2.2 Multi-Head Attention

我们发现将query、key和value分别用不同的、学到的线性映射 h h h倍到 d k d_k dk、 d k d_k dk和 d v d_v dv维效果更好，而不是用 d model d_{\text {model }} dmodel维的query、key和value执行单个attention函数。基于每个映射版本的query、key和value，我们并行执行attention函数，产生 d v d_v dv 维输出值。将它们连接并再次映射，产生最终值，如图2所示。

Multi-head attention允许模型的不同表示子空间（representation subspaces）联合关注不同位置的信息。如果只有一个attention head，它的平均值会削弱这个信息。

MultiHead ( Q , K , V ) = Concat ( head 1 , … , head h ) W O wherehead i = Attention ( Q W i Q , K W i K , V W i V ) \begin{aligned} \text { MultiHead }(Q, K, V) &=\text { Concat }\left(\text { head }_{1}, \ldots, \text { head }_{\mathrm{h}}\right) W^{O} \\ \text { where head }_{\mathrm{i}} &=\text { Attention }\left(Q W_{i}^{Q}, K W_{i}^{K}, V W_{i}^{V}\right) \end{aligned} MultiHead(Q,K,V)whereheadi=Concat(head1,…,headh)WO=Attention(QWiQ,KWiK,VWiV)

其中，映射为参数矩阵 W i Q ∈ R d madel × d k , W i K ∈ R d model × d k , W i V ∈ R d model × d v W_{i}^{Q} \in \mathbb{R}^{d_{\text {madel }} \times d_{k}}, W_{i}^{K} \in \mathbb{R}^{d_{\text {model }} \times d_{k}}, W_{i}^{V} \in \mathbb{R}^{d_{\text {model }} \times d_{v}} WiQ∈Rdmadel×dk,WiK∈Rdmodel×dk,WiV∈Rdmodel×dv 和 W O ∈ R h d v × d model W^{O} \in \mathbb{R}^{h d_{v} \times d_{\text {model }}} WO∈Rhdv×dmodel。

在这项工作中，我们采用h = 8 个并行attention层或head。对每个head，我们使用 d k = d v = d model / h = 64 d_{k}=d_{v}=d_{\text {model }} / h=64 dk=dv=dmodel/h=64。由于每个head的大小减小，总的计算成本与具有全部维度的单个head attention相似。

3.2.3 Applications of Attention in our Model

Transformer使用以3种方式使用multi-head attention：

在“编码器—解码器attention”层，query来自上面的解码器层，key和value来自编码器的输出。这允许解码器中的每个位置能关注到输入序列中的所有位置。这模仿序列到序列模型中典型的编码器—解码器的attention机制。编码器包含self-attention层。在self-attention层中，所有的key、value和query来自同一个地方，在这里是编码器中前一层的输出。编码器中的每个位置都可以关注编码器上一层的所有位置。类似地，解码器中的self-attention层允许解码器中的每个位置都关注解码器中直到并包括该位置的所有位置。我们需要防止解码器中的向左信息流来保持自回归属性。通过屏蔽softmax的输入中所有不合法连接的值（设置为负无穷），我们在缩放版的点积attention中实现。见图 2.

3.3 Position-wise Feed-Forward Networks

除了attention子层之外，我们的编码器和解码器中的每个层都包含一个完全连接的前馈网络，该前馈网络单独且相同地应用于每个位置。它由两个线性变换组成，之间有一个ReLU激活。

F F N ( x ) = max ⁡ ( 0 , x W 1 + b 1 ) W 2 + b 2 \mathrm{FFN}(x)=\max \left(0, x W_{1}+b_{1}\right) W_{2}+b_{2} FFN(x)=max(0,xW1+b1)W2+b2

尽管线性变换在不同位置上是相同的，但它们层与层之间使用不同的参数。它的另一种描述方式是两个内核大小为1的卷积。输入和输出的维度为 d model d_{\text {model }} dmodel = 512，内部层的维度为 d f f d_{ff} dff= 2048。

3.4 Embeddings and Softmax

与其他序列转导模型（sequence transduction models）类似，我们使用学习到的嵌入将输入词符和输出词符转换为维度为 d model d_{\text {model }} dmodel的向量。我们还使用普通的线性变换和softmax函数将解码器输出转换为预测的下一个词符的概率。在我们的模型中，两个嵌入层之间和pre-softmax线性变换共享相同的权重矩阵，类似于[30]。在嵌入层中，我们将这些权重乘以 d model \sqrt{d_{\text {model }}} dmodel 。

3.5 Positional Encoding

由于我们的模型不包含循环和卷积，为了让模型利用序列的顺序，我们必须注入序列中关于词符相对或者绝对位置的一些信息。为此，我们将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入中。位置编码和嵌入的维度 d model d_{\text {model }} dmodel相同，所以它们俩可以相加。有多种位置编码可以选择，例如通过学习得到的位置编码和固定的位置编码。

在这项工作中，我们使用不同频率的正弦和余弦函数：

P E ( pos , 2 i ) = sin ⁡ ( pos / 1000 0 2 i / d madel ) P E ( pos , 2 i + 1 ) = cos ⁡ ( pos / 1000 0 2 i / d madel ) \begin{array}{c}{P E_{(\text {pos}, 2 i)}=\sin \left(\text {pos} / 10000^{2 i / d_{\text {madel }}}\right)} \\ {P E_{(\text {pos}, 2 i+1)}=\cos \left(\text {pos} / 10000^{2 i / d_{\text {madel }}}\right)}\end{array} PE(pos,2i)=sin(pos/100002i/dmadel)PE(pos,2i+1)=cos(pos/100002i/dmadel)

其中pos 是位置（即第几个词），i 是维度（embedding中的第几维）。也就是说，位置编码的每个维度对应于一个正弦曲线。这些波长（wavelengths）形成一个几何级数（wavelengths），从2π 到10000 ⋅ 2π。我们选择这个函数是因为我们假设它允许模型很容易学习对相对位置的关注，因为对任意确定的偏移k, P E p o s + k PE_{pos+k} PEpos+k可以表示为 P E p o s PE_{pos} PEpos的线性函数。

我们还使用学习到的位置嵌入进行了试验，发现这两个版本产生几乎相同的结果（参见表 3 行(E)）。我们选择了正弦曲线，因为它可以允许模型推断比训练期间遇到的更长的序列。

4 Why Self-Attention

本节，我们比较self-attention与循环层和卷积层的各个方面，它们通常用于映射变长的符号序列表示(x1,…,xn) 到另一个等长的序列(z1,…,zn)，其中xi,zi ∈ ℝd，例如一个典型的序列转导编码器或解码器中的隐藏层。我们使用self-attention是考虑到解决三个问题。

一个是每层计算的总复杂度。另一个是可以并行的计算量，以所需的最小顺序操作的数量来衡量。

第三个是网络中长距离依赖之间的路径长度。学习长距离依赖性是许多序列转导任务中的关键挑战。影响学习这种依赖性能力的一个关键因素是前向和后向信号必须在网络中传播的路径长度。输入和输出序列中任意位置组合之间的这些路径越短，学习远距离依赖性就越容易。因此，我们还比较了由不同图层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

如表1所示，self-attention层将所有位置连接到恒定数量的顺序执行的操作，而循环层需要O(n) 顺序操作。在计算复杂性方面，当序列长度n 小于表示维度d 时，self-attention层比循环层快，这是机器翻译中最先进的模型最常见情况，例如单词[38]表示法和字节对[31]表示法。为了提高涉及很长序列的任务的计算性能，可以将self-attention限制在仅考虑大小为r 的邻域。这会将最大路径长度增加到O(n ∕ r)。我们计划在未来的工作中进一步调查这种方法。

核宽度为k < n的单层卷积不会连接每一对输入和输出的位置。要这么做，在邻近核的情况下需要O(n∕k) 个卷积层，在扩展卷积的情况下需要O(logk(n)) 个层[18]，它们增加了网络中任意两个位置之间的最长路径的长度。卷积层通常比循环层更昂贵，与因子k有关。然而，可分卷积[6]大幅减少复杂度到O(k ⋅n⋅d + n⋅d2)。然而，即使k = n，一个可分卷积的复杂度等同于self-attention层和point-wise前向层的组合，即我们的模型采用的方法。

间接的好处是self-attention可以产生更可解释的模型。我们从我们的模型中研究attention的分布，并在附录中展示和讨论示例。每个attention head不仅清楚地学习到执行不同的任务，许多似乎展现与句子的句法和语义结构的行为。

5 Training

本节介绍我们的模型训练方法。

5.1 Training Data and Batching

我们在标准的WMT 英语-德语数据集上进行了训练，其中包含约450万个句子对。这些句子使用字节对编码进行编码，源语句和目标语句共享大约37000个词符的词汇表。对于英语-法语翻译，我们使用大得多的WMT 英法数据集，它包含3600万个句子，并将词符分成32000个word-piece词汇表。序列长度相近的句子一起进行批处理。每个训练批次的句子对包含大约25000个源词符和25000个目标词符。

5.2 Hardware and Schedule

我们在一台具有8个NVIDIA P100 GPU的机器上训练我们的模型。使用本文描述的超参数的基础模型，每个训练步骤耗时约0.4秒。我们的基础模型共训练了10万步或12小时。对于我们的大型模型,(described on the bottom line of table 3), 每个训练步骤耗时1.0秒。大模型训练了30万步（3.5天）。

5.3 Optimizer

我们使用Adam优化器，其中β1 = 0.9, β2 = 0.98及ϵ= 10-9。我们根据以下公式在训练过程中改变学习率：

l r a t e = d m o d e l − 0.5 ⋅ min ⁡ ( s t e p n u m − 0.5 , s t e p _ n u m ⋅ w a r m u p _ s t e p − 1.5 ) lrate=d_{model }^{-0.5} \cdot \min(step_num^{-0.5},step\_num\cdot warmup\_step^{-1.5}) lrate=dmodel−0.5⋅min(stepnum−0.5,step_num⋅warmup_step−1.5)

这对应于在第一次warmup_steps 步骤中线性地增加学习速率，并且随后将其与步骤数的平方根成比例地减小。我们使用 w a r m u p _ s t e p s = 4000 warmup\_steps = 4000 warmup_steps=4000。

5.4 Regularization

训练期间我们采用三种正则化：

残差丢弃（Residual Dropout）我们将dropout应用到每个子层的输出，在将它与子层的输入相加和规范化之前。此外，在编码器和解码器堆栈中，我们将dropout应用到嵌入和位置编码的和。对于基本模型，我们使用 P d r o p = 0.1 P_{drop} = 0.1 Pdrop=0.1的丢弃率。

标签平滑（Label Smoothing）在训练过程中，我们使用的label smoothing的值为 ϵ l s ϵ_{ls} ϵls = 0.1[。这让模型不易理解（This hurts perplexity），因为模型学得更加不确定，但提高了准确性和BLEU得分。