训练_朵贝贝家具网

多token预测 Meta等最新研究提升大模型推理效率

GPT4、Gemini系列、Llama3等开闭源大模型，通常使用的是下一个token预测，NexttokenPrediction，的损失函数进行预训练，这种方法虽然强大，但有很多局限性，例如，需要大量的训练数据才能使模型达到人类儿童的智商，......

国内资讯

admigg 11-15

748 580 458

清华大学提出1

在深度神经网络的训练过程中，全量化训练，FullyQuantizedTraining，FQT，通过将激活值、权重和梯度量化到较低的精度，显著加速了训练过程，随着对训练数值精度的不断压缩，一个自然而然的问题浮现出来，全量化训练的极限是什么，即......

生活娱乐

admigg 11-15

157 557 400

再战Transformer！原作者带队的Mamba 2来了新架构训练效率大幅提升

自2017年被提出以来，Transformer已经成为AI大模型的主流架构，一直稳居语言建模方面C位，但随着模型规模的扩展和需要处理的序列不断变长，Transformer的局限性也逐渐凸显，一个很明显的缺陷是，Transformer模型中自......

八卦娱乐

admigg 11-15

971 561 890

GitHub揽星1.9k项目发布V2版本 30秒生成建模师级Mesh！最大可生成面数提升至1600

只需30秒，AI就能像3D建模师一样，在各种指示下生成高质量人造Mesh，NeRF、3DGaussianSplatting生成的三维重建图像Mesh效果如下，点云造出精细Mesh，DenseMesh基础上生成也可以，一张图，甚至文本描述就足......

艺术宣传

admigg 11-15

158 631 677

GPU和CPU如何混合训练大模型训练的GPU联手CPU显存优化分析方法

随着深度学习模型复杂度和数据集规模的增大，计算效率成为了不可忽视的问题，GPU凭借强大的并行计算能力，成为深度学习加速的标配，然而，由于服务器的显存非常有限，随着训练样本越来越大，显存连一个样本都容不下的现象频频发生，除了升级硬件，烧钱，、......

资讯

admigg 11-15

573 544 323

代码权重数据全开源分割一切进化2.0！一键跟踪运动物体

又是发布即开源！Meta&amp，ldquo，分割一切AI&amp，rdquo，二代SAM2在SIGGRAPH上刚刚亮相，相较于上一代，它的能力从图像分割拓展到视频分割，可实时处理任意长视频，视频中没见过的对象也能轻松分割追......

八卦娱乐

admigg 11-15

403 275 419

新加坡国立发布IFAdapter 即插即用提升文生图模型实例特征和位置生成准确性腾讯&amp

文章链接，https，arxiv.orgpdf2409.08240项目链接，https，ifadapter.github.io亮点直击提出了实例特征生成任务，旨在解决扩散模型在多实例生成中面临的定位和特征准确性问题，此外，引入了COCOIF......

国内资讯

admigg 11-15

359 332 804

多模态大语言模型综述 Stars 8.3K 重大升级

去年6月底，我们在arXiv上发布了业内首篇多模态大语言模型领域的综述，ASurveyonMultimodalLargeLanguageModels，，系统性梳理了多模态大语言模型的进展和发展方向，目前论文引用120，，开源GitHub项目......

家具资讯

admigg 11-15

703 103 353

LLM训练的隐秘危机 1%的合成数据或致模型崩溃

1、LLM训练的隐秘危机，1%的合成数据或致模型崩溃在LLM快速发展的今天，一个令人担忧的现象正悄然出现&amp，mdash，&amp，mdash，模型崩溃，研究发现，即便在训练数据中仅包含1%的合成数据，也可能导致LLM模......

企业

admigg 11-15

867 432 208

卡内基梅隆提出VADER 如何高效定制视频扩散模型通过奖励梯度进行视频扩散对齐

论文链接，https，arxiv.orgpdf2407.08737git链接，https，vadervid.github.io亮点直击，引入奖励模型梯度对齐方法，VADER通过利用奖励模型的梯度，对多种视频扩散模型进行调整和对齐，包括文本到......

艺术宣传

admigg 11-15

441 593 211

首页

末页