Agent数量越多 大语言模型效果越好 数量即力量!腾讯揭秘
来自腾讯的研究者们做了一个关于agent的scalingproperty,可拓展性,的工作,发现,通过简单的采样投票,大语言模型,LLM,的性能,会随着实例化agent数量的增加而增强,其第一次在广泛的场景下验证了该现象的普遍性,与其他复杂......
聊一聊生成式视角下的实体对齐
引言基于知识图谱嵌入的方法在实体对齐领域取得了巨大成功,本文以生成模型的视角重新解构了目前实体对齐方法的范式,展示了其与生成模型间的相似之处,并从理论上揭示了现有的基于生成对抗网络的方法的局限性,通过引入新的互变分自编码器,MutualVA......
种优化 等 的最新工作 和 KV PyramidInfer Cache 6 LLM MiniCache
一、背景在LLM推理中,常常会采用KVCache来缓存之前Token的中间结果,以显著减少重复计算,从而降低自回归生成中的延迟,然而,KVCache的大小与序列长度成正比,在处理长序列时会面临极大的挑战,尤其当前许多模型开始支持几百K甚至几......
MoE 为什么最新的LLM使用混合专家 架构
本文详细介绍了混合专家,MoE,架构,该架构通过混合或融合不同的&,ldquo,专家&,rdquo,模型共同解决特定的问题,专业化的必要性医院有很多具有不同专长的专家和医生,他们擅长解决各自领域内的医疗难题,外科......
参数量扩展到2.4billion 普林斯顿大学提出首个基于MoE的稀疏时序预测大模型
今天给大家介绍一篇普林斯顿大学提出的时间序列大模型工作,是首个基于MoE的百万级别参数时间序列大模型,将时序大模型参数量扩展到2.4billion的水平,在多个数据集上取得了显著优于其他时间序列大模型的效果,论文标题,TIMEMOE,BIL......
2024 ICML
本文作者李宏康,美国伦斯勒理工大学电气、计算机与系统工程系在读博士生,本科毕业于中国科学技术大学,研究方向包括深度学习理论,大语言模型理论,统计机器学习等等,目前已在ICLRICMLNeurips等AI顶会发表多篇论文,上下文学习,inco......
Next
编者按,本文深入探讨了如何通过优化动态上下文信息,DynamicContext,来提升AIAgents的工作效率和准确性,文章首先概述了五种常见的技术策略,包括信息标识,MessageLabeling,、针对不同需求设定不同上下文、优化系统......
提升5.69倍 高效RAG上下文压缩方法COCOM
GPT4、Llama等开闭大模型通过预训练的方式将海量数据积累成一个庞大的知识库,再通过文本问答的形式为用户生成各种内容,但这种方法仅局限于训练数据集,为了扩大输出范围允许模型通过检索额外的数据来丰富生成内容,RAG,知识检索增强,成为了必......
编码能力超级加倍! 顶穿天花板!AI编程初创公司挑战1亿上下文窗口
编辑言征超长上下文窗口的天花板来了!刚刚宣布新一轮3.2亿美元融资的AI编码初创新星Magic刚刚放出了一个重磅炸弹,推出首个1亿上下文窗口的模型LTM2mini!图片想一下,1亿上下文窗口,相当于你可以在prompt中直接丢给大模型100......
Transformers学习上下文强化学习的时间差分方法
上下文学习指的是模型在推断时学习能力,而不需要调整其参数,模型,例如transformers,的输入包括上下文,即实例标签对,和查询实例,即提示,然后,模型能够根据上下文在推断期间为查询实例输出一个标签,上下文学习的一个可能解释是,,线性,......