最高1410亿参数 专用于法律的两个开源大模型

最高1410亿参数 专用于法律的两个开源大模型

法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型&amp,mdash,&amp,mdash,SaulLM,SaulLM一共有540亿、1410亿两种参数,以及基础模型和指令微调两种版本,Sa......
admigg 11-15
212 239 227
LLM 长序列 训练的 Sample Packing Attention 问题及优化

LLM 长序列 训练的 Sample Packing Attention 问题及优化

一、背景之前看过部分MegatronLM的源码,也详细分析过对应的Dataset和DataLoader,想当然的认为在LLM预训练时会使用DocumentLevel的Mask,也就是常说的SamplePacking技术,最近我们在做长序列训......
admigg 11-15
628 288 596
2024 ECCV

2024 ECCV

论文一作兰宇时为南洋理工大学,NTU,博士生,导师为ChenChangeLoy,本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑,在ECCV2024中,来自南洋理工大学SLab、上海AILab以及北京大学......
admigg 11-15
999 353 809
最强GPT 长上下文能力只是吹牛

最强GPT 长上下文能力只是吹牛

大数字一向吸引眼球,千亿参数、万卡集群,&amp,mdash,&amp,mdash,还有各大厂商一直在卷的超长上下文,从一开始的几K几十K,发展到了如今的百万token级别,Gemini的最新版本可以接收200万个token......
admigg 11-14
901 177 317
ARCADE ​教机器人倒水是融入生活的第一步!AR收集和生成演示 框架发布

ARCADE ​教机器人倒水是融入生活的第一步!AR收集和生成演示 框架发布

文章链接,https,arxiv.orgpdf2410.15994项目链接,https,yygx.github.ioARCADE亮点直击引入了一个从单一增强现实,AR,捕获的演示生成大规模演示的新框架,在此框架内,开发了两项创新技术,关键姿......
admigg 11-14
842 665 560
训练的万卡集群 LLM 阿里 HPN 针对大规模

训练的万卡集群 LLM 阿里 HPN 针对大规模

一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案;也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0,不过上述HPN7.0......
admigg 11-14
637 618 560
你的LoRA需要更新了!科大讯飞等提出MiLoRA 新颖且高效的LoRA变体

你的LoRA需要更新了!科大讯飞等提出MiLoRA 新颖且高效的LoRA变体

论文链接,https,arxiv.orgpdf2410.18035低秩适应,LoRA,及其专家混合,MOE,变体是非常有效的参数高效微调,PEFT,方法,然而,由于在Transformer层中添加了LoRA模块和MOErouters,这些方......
admigg 11-14
676 528 338
解读AI通用计算芯片 GPU训练CPU推理 用最优的成本降低AI算力支出

解读AI通用计算芯片 GPU训练CPU推理 用最优的成本降低AI算力支出

AI计算方面,由于CPU有着更强的逻辑运算能力,就更加适合推理;而GPU拥有大量的计算单元,就更适合训练。...
admigg 11-14
918 312 675
视觉大模型训练和推理加速

视觉大模型训练和推理加速

Transformer,模型从,attention,is,all,you,need,这篇文章中被提出后,在自然语言处理领域的很多任务上大放异彩。...
admigg 11-14
124 617 224
大模型训练的GPU联手CPU显存优化分析方法

大模型训练的GPU联手CPU显存优化分析方法

本文为您提供了device,guard接口,只需要一行命令,即可实现GPU和CPU的混合训练,不仅可以解决训练模型时通过调整批尺寸,batch,size,显存依然超出的问题,让原本无法在单台服务器执行的模型可以训练,同时本文还给出了提高GP......
admigg 11-14
672 654 635