探讨

探讨

以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域,首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力,包括推理能力,上限逐步提升到更高的层次......
admigg 11-14
957 160 456
你值得拥有!!! Qwen2.5系列模型开源

你值得拥有!!! Qwen2.5系列模型开源

Ta来了,Ta来了,Ta带着7个Size的开源模型迎面走来了,是的,期待已久的Qwen2.5开源了,共有7个尺寸规模,包括,0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型,本次全是Dense......
admigg 11-14
302 668 477
意料之外的效果 意料之中的尺寸 GLM4模型开源

意料之外的效果 意料之中的尺寸 GLM4模型开源

写在前面今天智谱开了GLM49B的模型,不是6B,是9B,一共开源了四个模型,Base版本模型,GLM49B,、Chat版本模型,GLM49BChat和GLM49BChat1M,和多模态模型,GLM4V9BChat,其中,模型为多语言模型除......
admigg 11-14
899 273 636
如何获取高质量数据进行代码指令调优

如何获取高质量数据进行代码指令调优

之前很多研究都是生成、发现、过滤高质量的通用指令微调数据,而大家对代码任务的越发关注,如何构建更好的代码指令调整数据也越发重要,下面给大家带来一篇筛选高质量代码指令微调数据的文章,主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样......
admigg 11-14
191 574 577
大模型微调终极指南

大模型微调终极指南

大家好,我是刘聪NLP,今天给大家带来一篇大模型微调相关的最新综述,主要大模型微调归纳为7个阶段分别为数据准备、模型初始化、训练环境配置、模型微调、模型评估与验证、模型部署以及模型监控与维护,Paper,https,arxiv.orgabs......
admigg 11-14
971 214 785
Meta发布1B和3B端侧模型 11B和90B多模态模型 Llama3.2开源

Meta发布1B和3B端侧模型 11B和90B多模态模型 Llama3.2开源

早上起来发现,MetaAI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是首次开源了多模态大模型11B和90B两个版本;同时还开源了一个LlamaStack项目,Blog,https,ai.meta.comblogllama32co......
admigg 11-14
114 184 350
GLM4模型开源 意料之中的尺寸 意料之外的效果

GLM4模型开源 意料之中的尺寸 意料之外的效果

今天智谱开了GLM49B的模型,不是6B,是9B,一共开源了四个模型,Base版本模型,GLM49B,、Chat版本模型,GLM49BChat和GLM49BChat1M,和多模态模型,GLM4V9BChat,其中,模型为多语言模型除了支持中......
admigg 11-14
713 432 266
综述

综述

大家好,我是刘聪NLP,大模型已经展现出了较强的文本生成能力,但随着使用场景变得越加复杂和严格,除了避免生成误导或不当言论内容外,往往还希望可以满足用户的特殊需求,而可控文本生成就是为了在保持文本生成有用性、流畅性和多样性的同时,保证文本符......
admigg 11-14
926 230 485
LLM实践系列

LLM实践系列

经过了数据收集、筛选、去重,马上就可以开始训练实验了,但是在实验之前,我们还需要先获取一个语言模型的基石,分词器,Tokenizer,Tokenizer的作用是对一条文本数据进行切分、词表映射,得到这条文本的token序列,用开源Token......
admigg 11-14
166 546 884
将端侧大模型进行到底

将端侧大模型进行到底

面壁一直都在做端侧大模型,之前有文本系列MiniCPM2B模型,还有多模态系列的MiniCPMV系列模型,今天又开源了MiniCPM34B模型,真是端侧一路走到低,这次MiniCPM34B也是在效果上有了巨大的提升,超过Phi3.5mini......
admigg 11-14
387 369 823