微软发布Florence
近日,微软的AzureAI团队在HuggingFace上发布了一个名为Florence2的新视觉基础模型,该模型以宽松的MIT许可证可用,可以处理各种视觉和视觉语言任务,使用统一的基于提示的表示形式,它有两个尺寸&,mdash......
LLM CuMo 使用协同再利用的混合专家模型来扩展多模态大型语言模型
一、结论写在前面近期,多模态大型语言模型,LLMs,的发展主要集中在通过增加文本图像配对数据和增强LLMs来提高多模态任务的性能,然而,这些扩展方法计算成本高昂,且忽视了从视觉方面有效提升模型能力的重要性,受到混合专家,MoE,在LLMs中......
Qwen2
文章链接,https,arxiv.orgpdf2409.12191Github链接,https,github.comQwenLMQwen2VL亮点直击本文介绍了Qwen系列大型视觉语言模型的最新成员,Qwen2VL系列,该系列包括三款开放权......
在长上下文LLM的时代 RAG是否仍然必要
一、结论写在前面论文标题,InDefenseofRAGintheEraofLongContextLanguageModels论文链接,https,arxiv.orgpdf2409.01666克服早期生成式大型语言模型,LLMs,的有......
预训练& 效果 OLMoE 开源的MoE语言模型
一、结论写在前面论文标题,OLMoE,OpenMixtureofExpertsLanguageModels论文链接,https,arxiv.orgpdf2409.02060Weights,https,hf.coallenaiOL......
却更优 更弱 更小 通过计算最优抽样训练大语言模型推理器
一、结论写在前面论文标题,Smaller,Weaker,YetBetter,TrainingLLMReasonersviaComputeOptimalSampling论文链接,https,arxiv.orgpdf2408.16737......
LLM训练的隐秘危机 1%的合成数据或致模型崩溃
1、LLM训练的隐秘危机,1%的合成数据或致模型崩溃在LLM快速发展的今天,一个令人担忧的现象正悄然出现&,mdash,&,mdash,模型崩溃,研究发现,即便在训练数据中仅包含1%的合成数据,也可能导致LLM模......
GSM AI数学天才还是数字骗子
1、AI模型升级有妙招!&,quot,废物利用&,quot,让大语言模型更强大想象一下,如果能把你的旧手机变成最新的智能设备,是不是很酷,在AI领域,研究人员就实现了类似的&,quot,魔法&......
用于长文本建模的记忆增强检索 MemLong
一、结论写在前面论文标题,MemLong,MemoryAugmentedRetrievalforLongTextModeling论文链接,https,arxiv.orgpdf2408.16967LLMs在各个领域的最新进展取得了显著的成功......
一个意想不到的罪魁祸首 LLM的数数能力有多弱
大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读,下面是本期觉得比较有意思的论文,1、LLM的&,quot,数数&,quot,能力有多弱,一个意想不到的&,quot,罪魁祸首&a......