微软发布Florence

微软发布Florence

近日,微软的AzureAI团队在HuggingFace上发布了一个名为Florence2的新视觉基础模型,该模型以宽松的MIT许可证可用,可以处理各种视觉和视觉语言任务,使用统一的基于提示的表示形式,它有两个尺寸&amp,mdash......
admigg 11-15
540 646 230
LLM CuMo 使用协同再利用的混合专家模型来扩展多模态大型语言模型

LLM CuMo 使用协同再利用的混合专家模型来扩展多模态大型语言模型

一、结论写在前面近期,多模态大型语言模型,LLMs,的发展主要集中在通过增加文本图像配对数据和增强LLMs来提高多模态任务的性能,然而,这些扩展方法计算成本高昂,且忽视了从视觉方面有效提升模型能力的重要性,受到混合专家,MoE,在LLMs中......
admigg 11-15
964 191 855
Qwen2

Qwen2

文章链接,https,arxiv.orgpdf2409.12191Github链接,https,github.comQwenLMQwen2VL亮点直击本文介绍了Qwen系列大型视觉语言模型的最新成员,Qwen2VL系列,该系列包括三款开放权......
admigg 11-15
396 307 510
在长上下文LLM的时代 RAG是否仍然必要

在长上下文LLM的时代 RAG是否仍然必要

一、结论写在前面论文标题,InDefenseofRAGintheEraofLongContextLanguageModels论文链接,​​https,arxiv.orgpdf2409.01666​​克服早期生成式大型语言模型,LLMs,的有......
admigg 11-15
846 214 886
预训练&amp 效果 OLMoE 开源的MoE语言模型

预训练&amp 效果 OLMoE 开源的MoE语言模型

一、结论写在前面论文标题,OLMoE,OpenMixtureofExpertsLanguageModels论文链接,​​https,arxiv.orgpdf2409.02060​​Weights,​​https,hf.coallenaiOL......
admigg 11-15
627 483 328
却更优 更弱 更小 通过计算最优抽样训练大语言模型推理器

却更优 更弱 更小 通过计算最优抽样训练大语言模型推理器

一、结论写在前面论文标题,Smaller,Weaker,YetBetter,TrainingLLMReasonersviaComputeOptimalSampling论文链接,​​https,arxiv.orgpdf2408.16737​​......
admigg 11-15
102 663 819
LLM训练的隐秘危机 1%的合成数据或致模型崩溃

LLM训练的隐秘危机 1%的合成数据或致模型崩溃

1、LLM训练的隐秘危机,1%的合成数据或致模型崩溃在LLM快速发展的今天,一个令人担忧的现象正悄然出现&amp,mdash,&amp,mdash,模型崩溃,研究发现,即便在训练数据中仅包含1%的合成数据,也可能导致LLM模......
admigg 11-15
867 455 293
GSM AI数学天才还是数字骗子

GSM AI数学天才还是数字骗子

1、AI模型升级有妙招!&amp,quot,废物利用&amp,quot,让大语言模型更强大想象一下,如果能把你的旧手机变成最新的智能设备,是不是很酷,在AI领域,研究人员就实现了类似的&amp,quot,魔法&......
admigg 11-15
269 365 578
用于长文本建模的记忆增强检索 MemLong

用于长文本建模的记忆增强检索 MemLong

​一、结论写在前面论文标题,MemLong,MemoryAugmentedRetrievalforLongTextModeling论文链接,https,arxiv.orgpdf2408.16967LLMs在各个领域的最新进展取得了显著的成功......
admigg 11-15
223 549 625
一个意想不到的罪魁祸首 LLM的数数能力有多弱

一个意想不到的罪魁祸首 LLM的数数能力有多弱

大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读,下面是本期觉得比较有意思的论文,1、LLM的&amp,quot,数数&amp,quot,能力有多弱,一个意想不到的&amp,quot,罪魁祸首&a......
admigg 11-15
349 500 327