Google开源大模型新成员CodeGemma 继Transformer后新架构Griffin诞生 RecurrentGemma

admigg

2024-11-14 23:46:09发布
关注私信

438 255 524

2024年2月，Google推出了 Gemma， 一系列轻量级、先进的开源大模型，这些模型是使用创建 Gemini 模型时所使用的相同研究和技术构建的 。

近日，Google宣布了 Gemma 家族的首批新增成员，为机器学习开发者扩展了创新责任的可能性：用于代码补全和生成任务以及指令跟随，以及 RecurrentGemma ，用于研究实验的效率优化架构。

新成员之CodeGemma

为开发者和企业提供的代码补全、生成和聊天利用 Gemma 模型的基础，CodeGemma 为社区带来了强大而轻量级的编码能力。CodeGemma 模型提供了几个优势：

这张表比较了 CodeGemma 在单行和多行代码补全任务上与其他类似模型的性能。在技术报告中了解更多信息。

新成员之RecurrentGemma

为研究人员提供高效、更快速的推断，在更高的批次大小下RecurrentGemma 是一个在技术上独特的模型，利用 循环神经网络和本地注意力来提高内存效率 。虽然 RecurrentGemma 达到了与 Gemma 2B 模型相似的基准分数性能，但其独特的架构带来了几个优势：

这张图展示了 RecurrentGemma 如何在序列长度增加时保持其采样速度，而像 Gemma 这样基于 Transformer 的模型则随着序列变得更长而减慢。

RecurrentGemma基于新架构Griffin

RecurrentGemma是基于一种全新 Griffin 架构的模型，其性能优于 Transformers。

在多个规模上，Griffin 在控制测试中的基准得分均优于 Transformers 基线，无论是在不同参数规模下的 MMLU得分，还是在许多基准测试中的平均得分。该架构在推断长文本时还提供了效率优势，具有更快的推断速度和更低的内存使用率。以下是 Huggingface 上发布了这个模型的 2B 版本的性能：

参考：

Griffin论文：

原文链接：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#清言 #紫东太初 #日日新 #混元 #AI #开源 #悟道 #GPT #云雀 #言犀 #OpenAI #人工智能 #LaMDA #多模态 #文心一言 #AIGC应用 #大模型 #盘古 #AIGC #Sora #Bard #开源大模型 #Agent #孟子 #4 #Google #Copilot #ChatGPT #通义千问