2024年2月,Google推出了 Gemma, 一系列轻量级、先进的开源大模型,这些模型是使用创建 Gemini 模型时所使用的相同研究和技术构建的 。
近日,Google宣布了 Gemma 家族的首批新增成员,为机器学习开发者扩展了创新责任的可能性:用于代码补全和生成任务以及指令跟随,以及 RecurrentGemma ,用于研究实验的效率优化架构。
新成员之CodeGemma
为开发者和企业提供的代码补全、生成和聊天利用 Gemma 模型的基础,CodeGemma 为社区带来了强大而轻量级的编码能力。CodeGemma 模型提供了几个优势:
这张表比较了 CodeGemma 在单行和多行代码补全任务上与其他类似模型的性能。在技术报告中了解更多信息。
新成员之RecurrentGemma
为研究人员提供高效、更快速的推断,在更高的批次大小下RecurrentGemma 是一个在技术上独特的模型,利用 循环神经网络和本地注意力来提高内存效率 。虽然 RecurrentGemma 达到了与 Gemma 2B 模型相似的基准分数性能,但其独特的架构带来了几个优势:
这张图展示了 RecurrentGemma 如何在序列长度增加时保持其采样速度,而像 Gemma 这样基于 Transformer 的模型则随着序列变得更长而减慢。
RecurrentGemma基于新架构Griffin
RecurrentGemma是基于一种全新 Griffin 架构的模型,其性能优于 Transformers。
在多个规模上,Griffin 在控制测试中的基准得分均优于 Transformers 基线,无论是在不同参数规模下的 MMLU得分,还是在许多基准测试中的平均得分。该架构在推断长文本时还提供了效率优势,具有更快的推断速度和更低的内存使用率。以下是 Huggingface 上发布了这个模型的 2B 版本的性能:
参考:
Griffin论文:
原文链接: