企业宣传,产品推广,广告招商,广告投放联系seowdb

Google开源大模型新成员CodeGemma 继Transformer后新架构Griffin诞生 RecurrentGemma

2024年2月,Google推出了 Gemma, 一系列轻量级、先进的开源大模型,这些模型是使用创建 Gemini 模型时所使用的相同研究和技术构建的

近日,Google宣布了 Gemma 家族的首批新增成员,为机器学习开发者扩展了创新责任的可能性:用于代码补全和生成任务以及指令跟随,以及 RecurrentGemma ,用于研究实验的效率优化架构。

新成员之CodeGemma

为开发者和企业提供的代码补全、生成和聊天利用 Gemma 模型的基础,CodeGemma 为社区带来了强大而轻量级的编码能力。CodeGemma 模型提供了几个优势:

这张表比较了 CodeGemma 在单行和多行代码补全任务上与其他类似模型的性能。在技术报告中了解更多信息。

新成员之RecurrentGemma

为研究人员提供高效、更快速的推断,在更高的批次大小下RecurrentGemma 是一个在技术上独特的模型,利用 循环神经网络和本地注意力来提高内存效率 。虽然 RecurrentGemma 达到了与 Gemma 2B 模型相似的基准分数性能,但其独特的架构带来了几个优势:

这张图展示了 RecurrentGemma 如何在序列长度增加时保持其采样速度,而像 Gemma 这样基于 Transformer 的模型则随着序列变得更长而减慢。

RecurrentGemma基于新架构Griffin

RecurrentGemma是基于一种全新 Griffin 架构的模型,其性能优于 Transformers。

在多个规模上,Griffin 在控制测试中的基准得分均优于 Transformers 基线,无论是在不同参数规模下的 MMLU得分,还是在许多基准测试中的平均得分。该架构在推断长文本时还提供了效率优势,具有更快的推断速度和更低的内存使用率。以下是 Huggingface 上发布了这个模型的 2B 版本的性能:

参考: ​ ​​ ​

Griffin论文: ​ ​​ ​

原文链接:​ ​​ ​

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender