7 注意力机制介绍2

学习目标

了解什么是注意力计算规则以及常见的计算规则
了解什么是注意力机制及其作用
掌握注意力机制的实现步骤

计算规则:

前两者计算是针对软注意力的,下面这种一般用于自注意力

第一种和我们之前的图的对应关系:(这里其实和前面说的F的详细计算有关)

一张总的大图:

1 注意力机制规则

它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 当输入的Q=K=V时, 称作自注意力计算规则；当Q、K、V不相等时称为一般注意力计算规则

例子：seq2seq架构翻译应用中的Q、K、V解释

seq2seq模型架构包括三部分，分别是encoder(编码器)、decoder(解码器)、中间语义张量c。
图中表示的是一个中文到英文的翻译：欢迎来北京 → welcome to BeiJing。编码器首先处理中文输入"欢迎来北京"，通过GRU模型获得每个时间步的输出张量，最后将它们拼接成一个中间语义张量c；接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量, 逐个生成对应的翻译语言.
在上述机器翻译架构中加入Attention的方式有两种：