大模型微调 - transformer架构

news/2025/5/22 2:31:43/

什么是Transformer

Transformer 架构是由 Vaswani 等人在 2017 年提出的一种深度学习模型架构,首次发表于论文《Attention is All You Need》中

Transformer 的结构

在这里插入图片描述

Transformer = 编码器(Encoder) + 解码器(Decoder)

  • 编码器(Encoder):将输入序列编码成上下文相关的表示。

  • 解码器(Decoder):根据编码器输出和已有的目标序列预测下一个词。

标准的 Transformer 模型通常包含:

  • 6 个编码器层(Encoder Layers)

  • 6 个解码器层(Decoder Layers)

编码器结构(每层)

每个编码器层包含两个子层(Sublayers):

  • 多头自注意力机制(Multi-Head Self-Attention)
  • 前馈全连接网络(Feed-Forward Neural Network)提供非线性能力

每个子层外面都有:

  • 残差连接(Residual Connection),避免梯度消失
  • 层归一化(Layer Normalization),保持每一层输入和输出的数值稳定、分布一致

解码器结构(每层)

每个解码器层包含三个子层:

  • Masked 多头自注意力机制
  • Encoder-Decoder 注意力机制
  • 前馈神经网络
    也有残差连接和层归一化。

http://www.ppmy.cn/news/1622676.html

相关文章

(CAS:130100-20-8)Mag-Fura-2 AM Cell Permeant,配制方法步骤

一、试剂描述 Mag-Fura-2 AM是一种胞内镁离子指示剂,属于紫外激发的比率型探针,与镁离子结合的Kd值为1.9mM。 与Fura-2类似,Mag-Fura-2的激发波长历经蓝色迁移从3 69nm到330nm。Mag-Fura-2 AM具细胞膜渗透性,只需简单孵育&#…

中国250米土壤质地类型数据

土壤质地指土壤中砂粒、粉粒和黏粒的相对含量和组成。根据土壤质地的不同,可以将土壤分为砂土、壤土、黏土等类型。土壤质地对土壤的物理性质(如渗透性、保水性)和化学性质(如养分含量)有重要影响。 本数据集是以250米…

Nginx解决跨域问题

Nginx解决跨域问题详解 #mermaid-svg-KbGKpZziw2l5DJ0R {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-KbGKpZziw2l5DJ0R .error-icon{fill:#552222;}#mermaid-svg-KbGKpZziw2l5DJ0R .error-text{fill:#552222;stro…

ComfyUI 简介

目录 🆚 与其他文生图工具对比 💡 ComfyUI 的优势与不足 ✅ 优势 ❌ 不足 💰 部署成本分析 🧩 竞品分析 1. AUTOMATIC1111 WebUI 2. InvokeAI 3. DiffusionBee 4. Midjourney 📊 总结对比图 开源协议&#…

CS001-7-hbao

HBAO https://zhuanlan.zhihu.com/p/348467142 HBAO(屏幕空间的环境光遮蔽) - 知乎 (zhihu.com) [摸着原神学图形]HBAO实现与优化 - 知乎 (zhihu.com) https://zhuanlan.zhihu.com/p/367793439 Global Illumination_Horizon-Based Ambient Occlusion(HBAO)-CSDN博客 这个解…

认识 Linux 内存构成:Linux 内存调优之页表、TLB、缺页异常、大页认知

写在前面 博文内容涉及 Linux 内存中 多级页表,缺页异常,TLB,以及大页相关基本认知理解不足小伙伴帮忙指正对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是…

某些网站不允许复制怎么办

我发现 edge 浏览器有个允许复制插件,安装好后就可以在不允许复制的网站上复制了 csdn 上点击复制会弹出登录窗口 点击开启后,尝试复制 发现复制成功

《深入理解计算机系统》阅读笔记之第四章 处理器体系结构

概述 备注:怎么感觉讲的还是《编码》这本书里面提到的知识点?