Transformer学习笔记总结

无标签

发布日期: 2021-04-24

每个单词被嵌入到大小为512的向量中
编码器接受一个向量列表作为输入，首先将这些向量传到自注意力层，然后传递到前馈神经网络
多头注意力下没个头维护不同的qkv，从而得到不同的qkv，所以最终将的到八个不同的z矩阵
前馈全连接层需要的是一个单一的矩阵而不是八个矩阵，所以要想办法对这八个矩阵进行压缩
所以这里将八个矩阵拼接，并将它们乘以一个另外的权重矩阵wo，如图

浩

http://example.com/2021/04/24/transformer-xue-xi-bi-ji-zong-jie/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源浩 !

无标签

评论

评论

评论

上一篇

人工智能网站大全

人工智能网站大全

2021-04-25 学习网站

人工智能学习

下一篇

BERT,Transformer模型架构与详解

BERT,Transformer模型架构与详解

2021-04-23 nlp

BERT Transformer nlp