最高1410亿参数 专用于法律的两个开源大模型
法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型&,mdash,&,mdash,SaulLM,SaulLM一共有540亿、1410亿两种参数,以及基础模型和指令微调两种版本,Sa......
LLM 长序列 训练的 Sample Packing Attention 问题及优化
一、背景之前看过部分MegatronLM的源码,也详细分析过对应的Dataset和DataLoader,想当然的认为在LLM预训练时会使用DocumentLevel的Mask,也就是常说的SamplePacking技术,最近我们在做长序列训......
2024 ECCV
论文一作兰宇时为南洋理工大学,NTU,博士生,导师为ChenChangeLoy,本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑,在ECCV2024中,来自南洋理工大学SLab、上海AILab以及北京大学......
最强GPT 长上下文能力只是吹牛
大数字一向吸引眼球,千亿参数、万卡集群,&,mdash,&,mdash,还有各大厂商一直在卷的超长上下文,从一开始的几K几十K,发展到了如今的百万token级别,Gemini的最新版本可以接收200万个token......
ARCADE 教机器人倒水是融入生活的第一步!AR收集和生成演示 框架发布
文章链接,https,arxiv.orgpdf2410.15994项目链接,https,yygx.github.ioARCADE亮点直击引入了一个从单一增强现实,AR,捕获的演示生成大规模演示的新框架,在此框架内,开发了两项创新技术,关键姿......
训练的万卡集群 LLM 阿里 HPN 针对大规模
一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案;也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0,不过上述HPN7.0......
你的LoRA需要更新了!科大讯飞等提出MiLoRA 新颖且高效的LoRA变体
论文链接,https,arxiv.orgpdf2410.18035低秩适应,LoRA,及其专家混合,MOE,变体是非常有效的参数高效微调,PEFT,方法,然而,由于在Transformer层中添加了LoRA模块和MOErouters,这些方......
大模型训练的GPU联手CPU显存优化分析方法
本文为您提供了device,guard接口,只需要一行命令,即可实现GPU和CPU的混合训练,不仅可以解决训练模型时通过调整批尺寸,batch,size,显存依然超出的问题,让原本无法在单台服务器执行的模型可以训练,同时本文还给出了提高GP......