训练_第2页_朵贝贝家具网

最高1410亿参数专用于法律的两个开源大模型

法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型&amp，mdash，&amp，mdash，SaulLM，SaulLM一共有540亿、1410亿两种参数，以及基础模型和指令微调两种版本，Sa......

艺术宣传

admigg 11-15

212 655 366

LLM 长序列训练的 Sample Packing Attention 问题及优化

一、背景之前看过部分MegatronLM的源码，也详细分析过对应的Dataset和DataLoader，想当然的认为在LLM预训练时会使用DocumentLevel的Mask，也就是常说的SamplePacking技术，最近我们在做长序列训......

文化宣传

admigg 11-15

628 476 306

2024 ECCV

论文一作兰宇时为南洋理工大学，NTU，博士生，导师为ChenChangeLoy，本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑，在ECCV2024中，来自南洋理工大学SLab、上海AILab以及北京大学......

生活杂谈

admigg 11-15

999 656 373

最强GPT 长上下文能力只是吹牛

大数字一向吸引眼球，千亿参数、万卡集群，&amp，mdash，&amp，mdash，还有各大厂商一直在卷的超长上下文，从一开始的几K几十K，发展到了如今的百万token级别，Gemini的最新版本可以接收200万个token......

产品售后

admigg 11-14

901 274 345

ARCADE 教机器人倒水是融入生活的第一步！AR收集和生成演示框架发布

文章链接，https，arxiv.orgpdf2410.15994项目链接，https，yygx.github.ioARCADE亮点直击引入了一个从单一增强现实，AR，捕获的演示生成大规模演示的新框架，在此框架内，开发了两项创新技术，关键姿......

产品售后

admigg 11-14

842 209 848

训练的万卡集群 LLM 阿里 HPN 针对大规模

一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案；也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0，不过上述HPN7.0......

生活娱乐

admigg 11-14

637 640 293

你的LoRA需要更新了！科大讯飞等提出MiLoRA 新颖且高效的LoRA变体

论文链接，https，arxiv.orgpdf2410.18035低秩适应，LoRA，及其专家混合，MOE，变体是非常有效的参数高效微调，PEFT，方法，然而，由于在Transformer层中添加了LoRA模块和MOErouters，这些方......

居家知识

admigg 11-14

676 320 330

解读AI通用计算芯片 GPU训练CPU推理用最优的成本降低AI算力支出

AI计算方面，由于CPU有着更强的逻辑运算能力，就更加适合推理；而GPU拥有大量的计算单元，就更适合训练。...

产品售后

admigg 11-14

918 530 236

视觉大模型训练和推理加速

Transformer，模型从，attention，is，all，you，need，这篇文章中被提出后，在自然语言处理领域的很多任务上大放异彩。...

娱乐新闻

admigg 11-14

124 304 858

大模型训练的GPU联手CPU显存优化分析方法

本文为您提供了device，guard接口，只需要一行命令，即可实现GPU和CPU的混合训练，不仅可以解决训练模型时通过调整批尺寸，batch，size，显存依然超出的问题，让原本无法在单台服务器执行的模型可以训练，同时本文还给出了提高GP......

艺术宣传

admigg 11-14

672 177 686

首页

末页