清华大学提出1
在深度神经网络的训练过程中,全量化训练,FullyQuantizedTraining,FQT,通过将激活值、权重和梯度量化到较低的精度,显著加速了训练过程,随着对训练数值精度的不断压缩,一个自然而然的问题浮现出来,全量化训练的极限是什么,即......
Sam GPT Altman
5月16日,OpenAI首席执行官SamAltman接受了,硅谷著名风险投资公司红点,Redpoint,的董事兼总经理LoganBartlett专访,本周二,OpenAI重磅发布了可跨文本、视频、音频推理的多模态大模型GPT4o,其多元化的......
再战Transformer!原作者带队的Mamba 2来了 新架构训练效率大幅提升
自2017年被提出以来,Transformer已经成为AI大模型的主流架构,一直稳居语言建模方面C位,但随着模型规模的扩展和需要处理的序列不断变长,Transformer的局限性也逐渐凸显,一个很明显的缺陷是,Transformer模型中自......
谷歌发布大模型数据筛选方法 效率提升13倍 算力降低10倍
随着GPT4o、Gemini等多模态大模型的出现,对训练数据的需求呈指数级上升,无论是自然语言文本理解、计算机视觉还是语音识别,使用精心标注的数据集能带来显著的性能提升,同时大幅减少所需的训练数据量,但目前多数模型的数据处理流程严重依赖于人......
科技前沿 更明亮 眼 v2 揭秘DeDoDe 如何革新关键点检测技术 让AI
在人工智能领域,关键点检测技术一直是计算机视觉研究的重要课题,近期,来自Linköping大学、Chalmers大学、香港中文大学以及TexasA&,amp,M大学的科研团队,成功推出了DeDoDev2&,mda......
速度秒杀GPT
真正Open的AI公司Mistral又低调上新了,这次,他们发布了首款代码生成模型Codestral,支持80多种编程语言以及32K长上下文窗口,不仅在基准测试上取得了惊艳的表现,而且代码生成的速度也让试用的网友非常满意,目前,Codest......
音乐生成更高质量 更有乐感 人人都是音乐家!中科大& 科大讯飞重磅开源OpenMusic
文章链接,https,arxiv.orgpdf2405.15863代码链接,https,github.comivcylcqamdtHuggingface链接,https,huggingface.cospacesjadechoghariOpe......
性能提升200% 快手自研Spark向量化引擎正式发布
Blaze是快手自研的基于Rust语言和DataFusion框架开发的Spark向量化执行引擎,旨在通过本机矢量化执行技术来加速SparkSQL的查询处理,Blaze在快手内部上线的数仓生产作业也观测到了平均30%的算力提升,实现了较大的降......
击败GPT
全球AI领导者英伟达,Nvidia,开源了超强大模型&,mdash,&,mdash,Llama3.1Nemotron70BInstruct,根据测试数据显示,这个模型已经击败GPT4o、GPT4turbo、Gem......
今日arXiv最热NLP大模型论文 Github万星!北航发布零代码大模型微调平台LlamaFactory
引言,大语言模型的高效微调及其在多样化任务中的应用在人工智能领域,大语言模型,LLMs,已成为推动技术进步的关键力量,它们在理解和生成自然语言方面展现出了卓越的能力,从而在问答系统、机器翻译、信息提取等多样化任务中发挥着重要作用,然而,要将......