探讨
以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域,首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力,包括推理能力,上限逐步提升到更高的层次......
你值得拥有!!! Qwen2.5系列模型开源
Ta来了,Ta来了,Ta带着7个Size的开源模型迎面走来了,是的,期待已久的Qwen2.5开源了,共有7个尺寸规模,包括,0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型,本次全是Dense......
意料之外的效果 意料之中的尺寸 GLM4模型开源
写在前面今天智谱开了GLM49B的模型,不是6B,是9B,一共开源了四个模型,Base版本模型,GLM49B,、Chat版本模型,GLM49BChat和GLM49BChat1M,和多模态模型,GLM4V9BChat,其中,模型为多语言模型除......
如何获取高质量数据进行代码指令调优
之前很多研究都是生成、发现、过滤高质量的通用指令微调数据,而大家对代码任务的越发关注,如何构建更好的代码指令调整数据也越发重要,下面给大家带来一篇筛选高质量代码指令微调数据的文章,主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样......
大模型微调终极指南
大家好,我是刘聪NLP,今天给大家带来一篇大模型微调相关的最新综述,主要大模型微调归纳为7个阶段分别为数据准备、模型初始化、训练环境配置、模型微调、模型评估与验证、模型部署以及模型监控与维护,Paper,https,arxiv.orgabs......
Meta发布1B和3B端侧模型 11B和90B多模态模型 Llama3.2开源
早上起来发现,MetaAI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是首次开源了多模态大模型11B和90B两个版本;同时还开源了一个LlamaStack项目,Blog,https,ai.meta.comblogllama32co......
GLM4模型开源 意料之中的尺寸 意料之外的效果
今天智谱开了GLM49B的模型,不是6B,是9B,一共开源了四个模型,Base版本模型,GLM49B,、Chat版本模型,GLM49BChat和GLM49BChat1M,和多模态模型,GLM4V9BChat,其中,模型为多语言模型除了支持中......
综述
大家好,我是刘聪NLP,大模型已经展现出了较强的文本生成能力,但随着使用场景变得越加复杂和严格,除了避免生成误导或不当言论内容外,往往还希望可以满足用户的特殊需求,而可控文本生成就是为了在保持文本生成有用性、流畅性和多样性的同时,保证文本符......
LLM实践系列
经过了数据收集、筛选、去重,马上就可以开始训练实验了,但是在实验之前,我们还需要先获取一个语言模型的基石,分词器,Tokenizer,Tokenizer的作用是对一条文本数据进行切分、词表映射,得到这条文本的token序列,用开源Token......
将端侧大模型进行到底
面壁一直都在做端侧大模型,之前有文本系列MiniCPM2B模型,还有多模态系列的MiniCPMV系列模型,今天又开源了MiniCPM34B模型,真是端侧一路走到低,这次MiniCPM34B也是在效果上有了巨大的提升,超过Phi3.5mini......