多token预测 Meta等最新研究 提升大模型推理效率

多token预测 Meta等最新研究 提升大模型推理效率

GPT4、Gemini系列、Llama3等开闭源大模型,通常使用的是下一个token预测,NexttokenPrediction,的损失函数进行预训练,这种方法虽然强大,但有很多局限性,例如,需要大量的训练数据才能使模型达到人类儿童的智商,......
admigg 11-15
748 580 458
清华大学提出1

清华大学提出1

在深度神经网络的训练过程中,全量化训练,FullyQuantizedTraining,FQT,通过将激活值、权重和梯度量化到较低的精度,显著加速了训练过程,随着对训练数值精度的不断压缩,一个自然而然的问题浮现出来,全量化训练的极限是什么,即......
admigg 11-15
157 557 400
再战Transformer!原作者带队的Mamba 2来了 新架构训练效率大幅提升

再战Transformer!原作者带队的Mamba 2来了 新架构训练效率大幅提升

自2017年被提出以来,Transformer已经成为AI大模型的主流架构,一直稳居语言建模方面C位,但随着模型规模的扩展和需要处理的序列不断变长,Transformer的局限性也逐渐凸显,一个很明显的缺陷是,Transformer模型中自......
admigg 11-15
971 561 890
GitHub揽星1.9k项目发布V2版本 30秒生成建模师级Mesh!最大可生成面数提升至1600

GitHub揽星1.9k项目发布V2版本 30秒生成建模师级Mesh!最大可生成面数提升至1600

只需30秒,AI就能像3D建模师一样,在各种指示下生成高质量人造Mesh,NeRF、3DGaussianSplatting生成的三维重建图像Mesh效果如下,点云造出精细Mesh,DenseMesh基础上生成也可以,一张图,甚至文本描述就足......
admigg 11-15
158 631 677
GPU和CPU如何混合训练 大模型训练的GPU联手CPU显存优化分析方法

GPU和CPU如何混合训练 大模型训练的GPU联手CPU显存优化分析方法

随着深度学习模型复杂度和数据集规模的增大,计算效率成为了不可忽视的问题,GPU凭借强大的并行计算能力,成为深度学习加速的标配,然而,由于服务器的显存非常有限,随着训练样本越来越大,显存连一个样本都容不下的现象频频发生,除了升级硬件,烧钱,、......
admigg 11-15
573 544 323
代码权重数据全开源 分割一切 进化2.0!一键跟踪运动物体

代码权重数据全开源 分割一切 进化2.0!一键跟踪运动物体

又是发布即开源!Meta&amp,ldquo,分割一切AI&amp,rdquo,二代SAM2在SIGGRAPH上刚刚亮相,相较于上一代,它的能力从图像分割拓展到视频分割,可实时处理任意长视频,视频中没见过的对象也能轻松分割追......
admigg 11-15
403 275 419
新加坡国立发布IFAdapter 即插即用 提升文生图模型实例特征和位置生成准确性 腾讯&amp

新加坡国立发布IFAdapter 即插即用 提升文生图模型实例特征和位置生成准确性 腾讯&amp

文章链接,https,arxiv.orgpdf2409.08240项目链接,https,ifadapter.github.io亮点直击提出了实例特征生成任务,旨在解决扩散模型在多实例生成中面临的定位和特征准确性问题,此外,引入了COCOIF......
admigg 11-15
359 332 804
多模态大语言模型综述 Stars 8.3K 重大升级

多模态大语言模型综述 Stars 8.3K 重大升级

去年6月底,我们在arXiv上发布了业内首篇多模态大语言模型领域的综述,ASurveyonMultimodalLargeLanguageModels,,系统性梳理了多模态大语言模型的进展和发展方向,目前论文引用120,,开源GitHub项目......
admigg 11-15
703 103 353
LLM训练的隐秘危机 1%的合成数据或致模型崩溃

LLM训练的隐秘危机 1%的合成数据或致模型崩溃

1、LLM训练的隐秘危机,1%的合成数据或致模型崩溃在LLM快速发展的今天,一个令人担忧的现象正悄然出现&amp,mdash,&amp,mdash,模型崩溃,研究发现,即便在训练数据中仅包含1%的合成数据,也可能导致LLM模......
admigg 11-15
867 432 208
卡内基梅隆提出VADER 如何高效定制视频扩散模型 通过奖励梯度进行视频扩散对齐

卡内基梅隆提出VADER 如何高效定制视频扩散模型 通过奖励梯度进行视频扩散对齐

论文链接,https,arxiv.orgpdf2407.08737git链接,https,vadervid.github.io亮点直击,引入奖励模型梯度对齐方法,VADER通过利用奖励模型的梯度,对多种视频扩散模型进行调整和对齐,包括文本到......
admigg 11-15
441 593 211