9 Self attention演变过程

学习目标

1 Self-attention介绍

Self-attention就本质上是一种特殊的attention。这种应用在transformer中最重要的结构之一。前面我们介绍了attention机制,它能够帮我们找到子序列和全局的attention的关系,也就是找到权重值$w_i$。Self-attention向对于attention的变化,其实就是寻找权重值的$w_i$过程不同。下面我们来看看self-attention的运算过程。

$w_{ij}^\prime = x_{i}^Tx_j$

$x_i$和$x_j$是一对输入和输出。对于下一个输出的向量$y_{i+1}$,我们有一个全新的输入序列和一个不同的权重值。

2 Self-attention和Attention使用方法

根据他们之间的重要区别, 可以区分在不同任务中的使用方法: