你的LoRA需要更新了!科大讯飞等提出MiLoRA 新颖且高效的LoRA变体

你的LoRA需要更新了!科大讯飞等提出MiLoRA 新颖且高效的LoRA变体

论文链接,https,arxiv.orgpdf2410.18035低秩适应,LoRA,及其专家混合,MOE,变体是非常有效的参数高效微调,PEFT,方法,然而,由于在Transformer层中添加了LoRA模块和MOErouters,这些方......
admigg 11-14
676 460 342
英伟达&amp 从真实世界观测中生成机器人仿真任务 斯坦福大学发布GRS

英伟达&amp 从真实世界观测中生成机器人仿真任务 斯坦福大学发布GRS

文章链接,https,arxiv.orgpdf2410.15536亮点直击提出了一种实现真实到模拟仿真生成的新颖系统;在一系列真实和模拟测试中展示了该方法的高效性,总结速览解决的问题,GRS系统旨在解决机器人、计算机视觉和ARVR中的&am......
admigg 11-14
741 275 434
突破个性化图像生成局限!MagicTailor 组件可控个性化图像生成创新框架!

突破个性化图像生成局限!MagicTailor 组件可控个性化图像生成创新框架!

文章链接,https,arxiv.orgpdf2410.13370项目链接,https,correrzhou.github.ioMagicTailor亮点直击引入了一项名为组件可控个性化的新任务,使T2I模型在个性化过程中能够精确控制概念的......
admigg 11-14
216 300 453
让移动成像技术飞跃 AI手机迎来重大技术进展!Meissonic ​颜水成团队新作

让移动成像技术飞跃 AI手机迎来重大技术进展!Meissonic ​颜水成团队新作

文章链接,https,arxiv.orgpdf2410.08261模型链接,https,huggingface.coMeissonFlowMeissonic在线Demo链接,https,huggingface.cospacesMeisson......
admigg 11-14
964 342 722
LLM新巅峰

LLM新巅峰

本文提出了mllmNPU,这是第一个有效利用设备上神经处理单元,NPU,卸载的LLM推理系统,mllmNPU的主要设计目标是减少预填充延迟和能耗,它针对主流的仅解码器的变压器架构的LLM,例如LlaMA、GPT等,关键思想是最大限度地在移动......
admigg 11-14
337 181 411
字节跳动发布统一多模态大模型 Show

字节跳动发布统一多模态大模型 Show

引言,多模态理解与生成的新篇章在人工智能的发展历程中,多模态理解与生成一直是研究的热点领域,随着技术的进步,从单一模态到多模态的转变,使得机器能够更全面地理解和生成信息,极大地拓宽了人工智能的应用范围,本文介绍的研究成果,展示了如何通过一个......
admigg 11-14
399 312 218
阿里巴巴提出CODEXGRAPH 引领软件工程新革命 打破大模型与代码库的壁垒

阿里巴巴提出CODEXGRAPH 引领软件工程新革命 打破大模型与代码库的壁垒

在现代软件工程中,大型语言模型,LLMs,在处理独立的代码任务方面表现出色,例如HumanEval和MBPP,但在处理整个代码库时却遇到了困难,这一挑战促使研究人员探索在代码库规模上增强LLM与代码库的交互,目前的解决方案依赖于基于相似性的......
admigg 11-14
372 196 576
大模型真能模拟人类语言 中国人民大学提出新的数据增强方法

大模型真能模拟人类语言 中国人民大学提出新的数据增强方法

论文标题,LLMGeneratedNaturalLanguageMeetsScalingLaws,NewExplorationsandDataAugmentationMethods机构,SchoolofInformationResource......
admigg 11-14
488 263 608
mPLUG

mPLUG

OCRFree多页文档理解的挑战与进展在现代信息时代,多页文档的自动理解和处理变得尤为重要,这些文档可能包括书籍、报告、学术论文等,它们通常包含大量的文本、图表和其他视觉元素,传统的文档理解方法依赖于光学字符识别,OCR,技术将图像转换为文......
admigg 11-14
809 677 504
斯坦福大学研究团队破解小规模语料库知识获取难题 提出创新的合成持续预训练方法

斯坦福大学研究团队破解小规模语料库知识获取难题 提出创新的合成持续预训练方法

引言,探索小规模语料库中的知识获取在现代的自然语言处理领域,大规模预训练模型已经显示出了在各种知识密集型任务中的卓越性能,这些模型通常依赖于大量的、结构化不强的互联网文本数据进行训练,从而获取丰富的世界知识,然而,这种知识获取方式存在一个明......
admigg 11-14
669 579 273