一、GPT的核心是Transformer
GPT(Generative Pre-trained Transformer) 是一种基于单向Transformer解码器的预训练语言模型,它通过在大规模语料库上的无监督学习来捕捉语言的统计规律,从而具备强大的文本生成能力。
在GPT(Generative Pre-trained Transformer)模型中,字母G、P、T各自有其特定的含义:
GPT的核心是Transformer
Transformer模型在多模态数据处理中同样扮演着重要角色 ,其能够高效、准确地处理包含不同类型(如图像、文本、音频、视频等)的多模态数据。
Transformer的多模态
二、Transformer的工作原理
Transformer工作原理四部曲: Embedding(向量化)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。
Embedding -> Attention -> MLPs -> Unembedding
阶段一:Embedding(向量化)
“Embedding”在字面上的翻译是“嵌入”,但在机器学习和自然语言处理的上下文中,我们更倾向于将其理解为一种“向量化”或“向量表示”的技术。
(1)Tokenization(词元化):
Tokenization
(2)Embedding(向量化):
Tokens转换为向量
向量语义相似度
阶段二:Attention(注意力机制)
Attention模块帮助嵌入向量形成相关性,即确定它们如何相互关联以构建出有意义的句子或段落。
注意力计算公式
(1)Attention的目的:
更新嵌入向量
建立语义相关性
(2)Attention的工作流程(注意力计算Q、K、V):
注意力计算Q、K、V
阶段三:MLPs(多层感知机或前馈网络)
Transformer的编码器和解码器中的每一层都包含一个全连接的前馈神经网络。FFNN通常包含两个线性变换,中间使用ReLU激活函数进行非线性处理。
(1)MLPs在Transformer中的
MLPs在Transformer中的位置
(2)MLPs在Transformer中的作用:
MLPs在Transformer中的作用
阶段四:Unembedding(模型输出)
Transformers通过Softmax在生成输出时, 将原始注意力分数转换为输入标记的概率分布。这种概率分布将较高的注意力权重分配给更相关的标记,并将较低的权重分配给不太相关的标记。
(1)Softmax在Transformer的
Softmax在Transformer的位置
(2)Softmax在Transformer的作用:
Softmax在Transformer中的作用
原文链接: