Transformer学习笔记总结


  1. 每个单词被嵌入到大小为512的向量中
  2. 编码器接受一个向量列表作为输入,首先将这些向量传到自注意力层,然后传递到前馈神经网络
  3. 多头注意力下没个头维护不同的qkv,从而得到不同的qkv,所以最终将的到八个不同的z矩阵
  4. 前馈全连接层需要的是一个单一的矩阵而不是八个矩阵,所以要想办法对这八个矩阵进行压缩
  5. 所以这里将八个矩阵拼接,并将它们乘以一个另外的权重矩阵wo,如图

image-20210424205002779


文章作者:
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 !
评论
评论
评论
  目录