10 Self attention机制的代码实现

学习目标¶

可以使用pytorch实现注意力机制
知道注意力机制的实现流程

1 Self-attetion实现步骤¶

这里我们实现的注意力机制是现在比较流行的点积相乘的注意力机制
self-attention机制的实现步骤
- 第一步: 准备输入
- 第二步: 初始化参数
- 第三步: 获取key，query和value
- 第四步: 给input1计算attention score
- 第五步: 计算softmax
- 第六步: 给value乘上score
- 第七步: 给value加权求和获取output1
- 第八步: 重复步骤4-7，获取output2，output3

1.1 准备输入¶

# 这里我们随机设置三个输入, 每个输入的维度是一个4维向量 import torch x = [ [1, 0, 1, 0], # Input 1 [0, 2, 0, 2], # Input 2 [1, 1, 1, 1] # Input 3 ] x = torch.tensor(x, dtype=torch.float32)

1.2 初始化参数¶

`# 每一个输入都有三个表示，分别为key（橙黄色）query（红色）value（紫色）。比如说，每一个表示我们希望是一个3维的向量。由于输入是4维，所以我们的参数矩阵为 4*3 维。

为了能够获取这些表示，每一个输入（绿色）要和key，query和value相乘，在例子中，我们使用如下的方式初始化这些参数。

w_key = [ [0, 0, 1], [1, 1, 0], [0, 1, 0], [1, 1, 0] ] w_query = [ [1, 0, 1], [1, 0, 0], [0, 0, 1], [0, 1, 1] ] w_value = [ [0, 2, 0], [0, 3, 0], [1, 0, 3], [1, 1, 0] ] w_key = torch.tensor(w_key, dtype=torch.float32) w_query = torch.tensor(w_query, dtype=torch.float32) w_value = torch.tensor(w_value, dtype=torch.float32)

print("w_key: \n", w_key) print("w_query: \n", w_query) print("w_value: \n", w_value)`

输出效果

w_key: tensor([[0., 0., 1.], [1., 1., 0.], [0., 1., 0.], [1., 1., 0.]]) w_query: tensor([[1., 0., 1.], [1., 0., 0.], [0., 0., 1.], [0., 1., 1.]]) w_value: tensor([[0., 2., 0.], [0., 3., 0.], [1., 0., 3.], [1., 1., 0.]])

1.3 获取key，query和value¶

使用向量化获取keys的值
```
         `[0, 0, 1]
```

[1, 0, 1, 0] [1, 1, 0] [0, 1, 1] [0, 2, 0, 2] x [0, 1, 0] = [4, 4, 0] [1, 1, 1, 1] [1, 1, 0] [2, 3, 1]`

使用向量化获取values的值
```
         `[0, 2, 0]
```

[1, 0, 1, 0] [0, 3, 0] [1, 2, 3] [0, 2, 0, 2] x [1, 0, 3] = [2, 8, 0] [1, 1, 1, 1] [1, 1, 0] [2, 6, 3]`