本文详细介绍了混合专家 (MoE)架构,该架构通过混合或融合不同的“专家”模型共同解决特定的问题。
专业化的必要性
医院有很多具有不同专长的专家和医生,他们擅长解决各自领域内的医疗难题。外科医生、心脏病专家、儿科医生等各类专家紧密合作,为患者提供了全面而个性化的医疗护理服务。同样,人们也可以将这一合作模式应用于人工智能领域。
人工智能中的混合专家(MoE)架构被定义为不同“专家”模型的混合或融合,能够共同处理或响应复杂的数据输入。当涉及到人工智能时,MoE模型中的每个专家都专门研究一个更宏大的问题——就像每位医生都专门在其医学领域内深耕一样。这样的设计提高了效率,并增强了系统的有效性和准确性。
Mistral AI提供的开源基础大型语言模型(LLM)可以与OpenAI相媲美。并且已经在Mixtral8x7B模型中使用MoE架构,是一种尖端的大型语言模型(LLM)形式的革命性突破。以下将深入探讨MistralAI的Mixtral为什么在其他基础LLM中脱颖而出,以及当前的LLM现在采用MoE架构的原因,并突出其速度、大小和准确性。
升级LLM的常用方法
为了更好地理解MoE架构如何增强LLM,本文将讨论提高LLM效率的常用方法。人工智能从业者和开发人员通过增加参数、调整架构或微调来增强模型。
·增加参数:通过提供更多信息并对其进行解释,模型学习和表示复杂模式的能力得到了提高。这可能会导致过拟合和幻觉,需要从人类反馈中进行广泛的强化学习(RLHF)。
什么是MoE架构?
混合专家(MoE)架构是一种神经网络设计,通过为每个输入动态激活称为“专家”的专用网络子集来提高效率和性能。门控网络决定激活哪些专家,导致稀疏激活和减少计算成本。MoE架构由两个关键组件组成:门控网络和专家网络。以下进行分析:
从本质上来说,MoE架构的功能就像一个高效的交通系统,根据实时情况和期望的目的地,将每辆车(或在这种情况下是数据)导向最佳路线。每个任务都被路由到最合适的专门处理该特定任务的专家或子模型。这种动态路由确保为每个任务使用最有能力的资源,从而提高模型的整体效率和有效性。MoE架构利用了三种方法来提高模型的保真度。
(1)通过多个专家完成任务,MoE通过为每个专家添加更多参数来增加模型的参数大小。
(2)MoE改变了经典的神经网络架构,它包含了一个门控网络,以确定哪些专家被用于指定的任务。
(3)每个人工智能模型都有一定程度的微调,因此MoE中的每个专家都经过微调,以达到传统模型无法利用的额外调整层的预期效果。
MoE门控网络
门控网络在MoE模型中充当决策者或控制器。它评估传入的任务,并确定哪个专家适合处理这些任务。这一决策通常基于学习权值,随着时间的推移,通过训练进行调整,进一步提高其与专家匹配任务的能力。门控网络可以采用各种策略,从概率方法(将软任务分配给多个专家)到确定性方法(将每个任务路由到单个专家)。
MoE专家
MoE模型中的每个专家代表一个较小的神经网络、机器学习模型或针对问题域的特定子集优化的LLM。例如,在Mistral中,不同的专家可能专注于理解某些语言、方言,甚至是查询类型。专业化确保每个专家都精通自己的领域,当结合其他专家的贡献时,将在广泛的任务上实现卓越的性能。
MoE损失函数
虽然损失函数不被视为是MoE架构的主要组成部分,但它在模型的未来性能中起着关键作用,因为它被设计用于优化单个专家和门控网络。
它通常结合每个专家计算的损失,这些损失由门控网络分配给他们的概率或重要性进行加权。这有助于在调整门控网络以提高路由准确性的同时,对专家的特定任务进行微调。
从始至终的MoE流程
现在总结MoE整个流程,并添加更多细节。
以下是对路由过程从始至终如何工作的总结解释:
使用MoE架构的流行模型
OpenAI的GPT-4和GPT-40
GPT-4和GPT-40支持ChatGPT的高级版本。这些多模态模型利用MoE来摄取不同的源媒体,例如图像、文本和语音。有传言称,GPT-4有8个专家,每个专家拥有2200亿个参数,整个模型的参数总数超过1.7万亿个。
Mistral AI的Mixtral 8x7b
Mistral AI 提供了非常强大的开源 AI 模型,并表示他们的 Mixtral 模型是一个 sMoE模型或稀疏多专家混合模型,以较小的封装形式提供。Mixtral8x7b总共有467亿个参数,但每个令牌只使用129亿个参数,因此以这个成本处理输入和输出。他们的MoE模型一直优于Llama2 (70B)和GPT-3.5(175B),同时运行成本更低。
MoE的好处以及是首选架构的原因
最终,MoE架构的主要目标是呈现复杂机器学习任务处理方式的范式转变。它提供了独特的优势,并在几个方面展示了其优于传统模式的优势。
增强的模型可扩展性
提高效率和灵活性
专业化和准确性
MoE架构的缺点
虽然MoE架构提供了显著的优势,但它也带来了可能影响其采用和有效性的挑战。
应该注意的是,随着MoE架构的改进,上述缺点通常会随着时间的推移而减少。
专业化塑造的未来
反思MoE方法及其与人类的相似之处,可以看到,正如专业团队比一般劳动力取得更多成就一样,专业模型在人工智能模型中的表现也优于单一模型。优先考虑多样性和专业知识可以将大规模问题的复杂性转化为专家可以有效解决的可管理部分。
当展望未来时,需要考虑专业系统在推进其他技术方面的更广泛影响。MoE的原则可以影响医疗保健、金融和自治系统等行业的发展,促进更高效、更准确的解决方案。
MoE的旅程才刚刚开始,其持续发展有望推动人工智能及其他领域的进一步创新。随着高性能硬件的不断发展,这种专家AI的混合体可以在人们的智能手机中运行,将提供更智能的体验,但首先需要有人去训练它们。
原文标题:Why the Newest LLMs Use a MoE (Mixture of Experts) Architecture
作者:Kevin Vu
文章链接:https://dzone.com/articles/why-the-newest-llms-use-a-moe-mixture-of-experts。