阿里巴巴提出CODEXGRAPH 引领软件工程新革命 打破大模型与代码库的壁垒
在现代软件工程中,大型语言模型,LLMs,在处理独立的代码任务方面表现出色,例如HumanEval和MBPP,但在处理整个代码库时却遇到了困难,这一挑战促使研究人员探索在代码库规模上增强LLM与代码库的交互,目前的解决方案依赖于基于相似性的......
大模型真能模拟人类语言 中国人民大学提出新的数据增强方法
论文标题,LLMGeneratedNaturalLanguageMeetsScalingLaws,NewExplorationsandDataAugmentationMethods机构,SchoolofInformationResource......
mPLUG
OCRFree多页文档理解的挑战与进展在现代信息时代,多页文档的自动理解和处理变得尤为重要,这些文档可能包括书籍、报告、学术论文等,它们通常包含大量的文本、图表和其他视觉元素,传统的文档理解方法依赖于光学字符识别,OCR,技术将图像转换为文......
斯坦福大学研究团队破解小规模语料库知识获取难题 提出创新的合成持续预训练方法
引言,探索小规模语料库中的知识获取在现代的自然语言处理领域,大规模预训练模型已经显示出了在各种知识密集型任务中的卓越性能,这些模型通常依赖于大量的、结构化不强的互联网文本数据进行训练,从而获取丰富的世界知识,然而,这种知识获取方式存在一个明......
微软提出LLM
大型语言模型,LLM,在系统级优化中的新进展近年来,大型语言模型,LLM,在解决复杂问题的推理能力方面取得了显著进展,使其能够有效管理数千种工具和API调用,这些改进释放了它们在大规模系统中的潜力,包括UI网络界面、移动应用程序、SQL后端......
硬盘里的珍藏电影可以更清晰了 清华大学提出视频去模糊领域适应方案
引言,视频动态场景中的模糊问题及其挑战这篇论文主要研究了动态场景视频去模糊技术,旨在消除拍摄过程中产生的不想要的模糊瑕疵,然而,尽管之前的视频去模糊方法取得了显著的成果,但由于训练和测试视频之间的域差距,导致在真实世界场景中的表现大幅下降,......
浙江大学与字节跳动联手推出Molecule 破解AI多模态理解难题
引言,多模态统一表示空间的挑战与机会在人工智能领域,多模态统一表示空间是实现多模态理解和生成的基础,这种统一空间能够将音频、图像、文本等多种模态的数据融合在一个共享的表示空间中,从而使得机器能够更好地理解和处理来自不同源的信息,然而,构建这......
打破视觉
引言,探索视觉语言对比预训练中的噪声和低质量标注问题在视觉语言对比预训练中,噪声和标注质量被认为是影响训练效果的重要因素,本文通过深入研究和分析训练过程中的两个主要问题&,mdash,&,mdash,错误的负样本......
SkyScript AI编剧时代来临
引言,探索短剧剧本生成的新时代随着人工智能技术的飞速发展,短剧剧本生成领域也迎来了前所未有的变革,传统的剧本创作过程中,编剧需要投入大量的时间和精力来构思情节、设计角色和编写对白,然而,最新的研究成果表明,借助先进的大型语言模型,LLM,,......
清华大学揭露RAG的双面性 全面分析揭示大模型中RAG噪声的作用
引言,RAG技术与大型语言模型中的噪声问题在大型语言模型,LLMs,的研究与应用中,噪声问题一直是一个不容忽视的挑战,这些模型在处理复杂的语言理解和生成任务时,往往需要从海量的数据中提取有用信息,然而,互联网上充斥着各种非标准的噪声信息,如......