Transformer动画讲解_朵贝贝家具网

admigg

2024-11-15 00:30:37发布
关注私信

512 239 407

一、GPT的核心是Transformer

GPT（Generative Pre-trained Transformer） 是一种基于单向Transformer解码器的预训练语言模型，它通过在大规模语料库上的无监督学习来捕捉语言的统计规律，从而具备强大的文本生成能力。

在GPT（Generative Pre-trained Transformer）模型中，字母G、P、T各自有其特定的含义：

GPT的核心是Transformer

Transformer模型在多模态数据处理中同样扮演着重要角色 ，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。

Transformer的多模态

二、Transformer的工作原理

Transformer工作原理四部曲： Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。

Embedding -> Attention -> MLPs -> Unembedding

阶段一：Embedding（向量化）

“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自然语言处理的上下文中，我们更倾向于将其理解为一种“向量化”或“向量表示”的技术。

（1）Tokenization（词元化）：

Tokenization

（2）Embedding（向量化）：

Tokens转换为向量

向量语义相似度

阶段二：Attention（注意力机制）

Attention模块帮助嵌入向量形成相关性，即确定它们如何相互关联以构建出有意义的句子或段落。

注意力计算公式

（1）Attention的目的：

更新嵌入向量

建立语义相关性

（2）Attention的工作流程（注意力计算Q、K、V）：

注意力计算Q、K、V

阶段三：MLPs（多层感知机或前馈网络）

Transformer的编码器和解码器中的每一层都包含一个全连接的前馈神经网络。FFNN通常包含两个线性变换，中间使用ReLU激活函数进行非线性处理。

（1）MLPs在Transformer中的

MLPs在Transformer中的位置

（2）MLPs在Transformer中的作用：

MLPs在Transformer中的作用

阶段四：Unembedding（模型输出）

Transformers通过Softmax在生成输出时， 将原始注意力分数转换为输入标记的概率分布。这种概率分布将较高的注意力权重分配给更相关的标记，并将较低的权重分配给不太相关的标记。

（1）Softmax在Transformer的

Softmax在Transformer的位置

（2）Softmax在Transformer的作用：

Softmax在Transformer中的作用

原文链接：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#日日新 #盘古 #AIGC应用 #悟道 #ChatGPT #紫东太初 #Transformer #清言 #AI #Copilot #通义千问 #云雀 #GPT #OpenAI #Agent #文心一言 #LaMDA #Sora #AI动画 #大模型 #AIGC #多模态 #言犀 #混元 #4 #人工智能 #孟子 #Bard #开源大模型