企业宣传,产品推广,广告招商,广告投放联系seowdb

LLM集中爆发的一周 卷疯了! Open

开源大模型领域热闹非凡的一周,各种开源,PaperAgent进行了概括: 端侧、Code、RAG、Agent、Reflection(反思纠正)、MoE ,你关注的都在这里了。

Reflection Llama-3.1-70B 开源

ReflectionLlama-3.1 70B是世界上顶尖的Open LLM,通过反思微调技术( Reflection-Tuning )训练,能够检测并纠正推理错误,具有很高的热度,Hugging Face热门排行Top1。

Agent中需要LLM具有很强的推理规划能力 ,这种反思技术训练的模型是否很契合Agent尼?有待进一步验证

从实验对结果看,是击败GPT-4o、Claude 3.5 Sonnet,遥遥领先的,更强405B版本 预计下周推出,非常期待

面壁小钢炮MiniCPM 3.0开源

面壁智能开源新一代全面开挂的小钢炮,4B规模达到ChatGPT级能力:

零一万物Yi-Coder系列模型开源

Yi-Coder 有两种规模—— 15亿和90亿参数 ——提供基础版和聊天版,旨在实现高效的推理和灵活的训练。值得注意的是,Yi-Coder-9B 在 Yi-9B 的基础上,额外增加了2.4万亿高质量的标记,这些标记精心挑选自 GitHub 上的代码库级别的代码语料库,以及从 CommonCrawl 筛选出的与代码相关的数据。

Yi-Coder 的关键特性包括:

DeepSeek-V2.5版本发布

DeepSeek-V2.5 是一个升级版本,它结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。这个新模型整合了前两个版本的通用和编码能力。

DeepSeek-V2.5 更好地符合人类的偏好,并在多个方面进行了优化,包括写作和指令遵循:

首个完全开源MoE大模型:OLMoE

OLMoE-1B-7B 是一个具有10亿活跃参数和70亿总参数的专家混合( Mixture-of-Experts )大型语言模型(LLM),于 2024年9月(0924)发布 。它在成本相似(10亿)的模型中提供了最先进的性能,并且与像 Llama2-13B 这样的更大模型具有竞争力。 OLMoE 是100%开源的

开放 MoE 和密集型语言模型(LMs)的性能、成本和开放程度

checkpoints:https://arxiv.org/pdf/2409.02060code :::
© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender