7 注意力机制介绍2
学习目标
- 了解什么是注意力计算规则以及常见的计算规则
- 了解什么是注意力机制及其作用
- 掌握注意力机制的实现步骤
计算规则:

前两者计算是针对软注意力的,下面这种一般用于自注意力
第一种和我们之前的图的对应关系:(这里其实和前面说的F的详细计算有关)

一张总的大图:

1 注意力机制规则
- 它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 当输入的Q=K=V时, 称作自注意力计算规则;当Q、K、V不相等时称为一般注意力计算规则
例子:seq2seq架构翻译应用中的Q、K、V解释

- seq2seq模型架构包括三部分,分别是encoder(编码器)、decoder(解码器)、中间语义张量c。
- 图中表示的是一个中文到英文的翻译:欢迎 来 北京 → welcome to BeiJing。编码器首先处理中文输入"欢迎 来 北京",通过GRU模型获得每个时间步的输出张量,最后将它们拼接成一个中间语义张量c;接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量, 逐个生成对应的翻译语言.
- 在上述机器翻译架构中加入Attention的方式有两种: