embedding模型 利用LLM本身训练SoTA
大家好,我是HxShine今天分享一篇Microsoft公司的一篇文章,Title,ImprovingTextEmbeddingswithLargeLanguageModels,使用大型语言模型改善文本嵌入,这篇文章探索了直接利用LLM来做......
UC RAFT 对不相关的RAG检索结果进行建模 Berkeley
大家好,我是HxShine,今天推荐一篇UCBerkeley的一篇RAG效果优化的文章~大模型引入新的知识一般有两个途径,一种是RAG检索增强,一种是SFT,哪种方式效果比较好呢,或者说有没有一些其他的更为有效的方式呢,这篇论文介绍了一种新......
但等来了Qwen2 没有等来Qwen2.5
Qwen2又出新作Math大模型,你值得拥有,我没有等来Qwen2.5,但等来了Qwen2Math,在数学推理能力上大幅度提高,先来一张图阵阵场子,72B模型超过GPT4o、Claude3.5Sonnet和Gemini1.5Pro,Blog......
闭源模型的统治时代将迎来结束 Llama3.1系列模型正式开源 最大405B
Meta开源了Llama3.1系列模型,最大参数规模为405B,开源也是好起来了,榜单指标直逼GPT4o,开源追上闭源模型不再是梦!Llama系列模型确实是开源界的头部,真金白银砸出来的就是不一样,不过现在大家也都知道,榜单效果和真实使用效......
探讨
以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域,首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力,包括推理能力,上限逐步提升到更高的层次......
你值得拥有!!! Qwen2.5系列模型开源
Ta来了,Ta来了,Ta带着7个Size的开源模型迎面走来了,是的,期待已久的Qwen2.5开源了,共有7个尺寸规模,包括,0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型,本次全是Dense......
意料之外的效果 意料之中的尺寸 GLM4模型开源
写在前面今天智谱开了GLM49B的模型,不是6B,是9B,一共开源了四个模型,Base版本模型,GLM49B,、Chat版本模型,GLM49BChat和GLM49BChat1M,和多模态模型,GLM4V9BChat,其中,模型为多语言模型除......
如何获取高质量数据进行代码指令调优
之前很多研究都是生成、发现、过滤高质量的通用指令微调数据,而大家对代码任务的越发关注,如何构建更好的代码指令调整数据也越发重要,下面给大家带来一篇筛选高质量代码指令微调数据的文章,主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样......
大模型微调终极指南
大家好,我是刘聪NLP,今天给大家带来一篇大模型微调相关的最新综述,主要大模型微调归纳为7个阶段分别为数据准备、模型初始化、训练环境配置、模型微调、模型评估与验证、模型部署以及模型监控与维护,Paper,https,arxiv.orgabs......
Meta发布1B和3B端侧模型 11B和90B多模态模型 Llama3.2开源
早上起来发现,MetaAI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是首次开源了多模态大模型11B和90B两个版本;同时还开源了一个LlamaStack项目,Blog,https,ai.meta.comblogllama32co......