“学习大模型技术是有方法的,千万不要只知道埋头工作”
学习人工智能技术也有一段时间了,虽然说也算不上什么成果,但对人工智能技术也算有了一个初步的认识,以及一些个人的学习过程与心得。
而今天就来简单介绍一下个人学习人工智能技术的一些书籍,网站和心得;因为人工智能技术有不同的实现方式,所以今天所说的人工智能特指大模型技术。
大模型技术学习
先来思考一个问题,应该怎么学习大模型技术?
首先从个人的经验来说,学习大模型技术或者说学习任何一门新的技能,首先就是要理解它的基本概念,比如什么是大模型,它能干什么,然后该怎么用,最好自己动手尝试一下。
然后第二步也是比较重要的一步,也是很多人钻牛角尖的一步;第二步就是在了解基本概念的基础之上,尽快找一个机会去使用这项技术,而不是钻进新技术的理论中。
因为现实中很多人学习新技术的时候,都喜欢研究它的理论,而不注重实操,包括作者自己之前也是这种情况。
很多时候就是,感觉懂了好多理论,别人问起来也能和人家吹的天花乱坠,好像自己很懂。但事实上,这时对技术的理解只是停留在表面,对很多技术细节和实现理念都没有一个深入的理解。
也就是说,这时我们所谓的很懂其实很空洞,除了吹牛逼之外啥都干不了。
因此,最好的方式就不要沉迷于理论,尽快参与实践;这时,可能会因为对理论不理解,你会踩很多坑,很多东西都不知道为什么,这时你会觉得很困难。
但只要你能坚持下去,慢慢你就会在实践中发现很多问题,包括一些之前先想不明白却豁然开朗的问题和一些之前觉得理所当然,但现在却认为不合理的问题。
而这时,你就会对整个大模型技术有了更加深刻的理解,这时再回头看一些理论你就会看到不一样的东西。
这也就是政治课上常说的,理论与实践相结合,用实践去验证理论,用理论去指导实践。
再有,学习一项新技术,个人认为应该从以下三个角度出发:
上面这个顺序并不是乱排的,而是有原因的,首先第一点就是应用;任何技术刚开始肯定要从应用开始,原因就是你需要对它有一个具象化的了解,而不是只看一些抽象的理论。
从应用开始,你就能知道它是个什么,能做到什么以及能用来解决什么问题;然后,你就会思考它为什么会这么做,解决了什么问题,以及怎么解决的,为什么会选择这种方案,有没有其它解决方案等等。
而这些问题就存在于其理论之中,这个理论不仅仅只是技术理论,还包括其设计理念,解决方案等。
而有了基础理论之后,还需要具体落实,比如说通过爱因斯坦的相对论,那怎么证明相对论,这就需要具体的技术实现。
还拿大模型来说,大模型的基础理论是深度学习,但怎么实现深度学习?通过神经网络,那神经网络模型应该是什么样的?又该怎么实现?
所以就有了正向传播,反向传播,损失计算等等具体技术的出现;这也是为什么,正反向传播和损失计算的方式都不止一种。
所以,从应用开始对技术有个基础的印象,其次通过理论去深化对技术的理解,最后通过具体的技术来实现理论。
下面就是个人经常看的书籍,以及网站:
大模型应用开发极简入门,这是作者刚开始学习大模型技术购买的书籍,从目录结构上看,它从大模型的基础理论,chatGPT的基本操作以及其接口开发,还包括模型的微调和Langchain这种大模型应用开发框架的使用。
对刚入门想学习人工智能技术的人来说,这是一个不错的选择,但有一个硬性条件就是,要有一点编程的基础,什么语言不重要,重要的是要有编程的思想。
从零开始大模型开发与微调,是基于pytorch开发的清华大学开源的chatGLM模型为基础,完整介绍了实现一个大模型所需要的技术,如编/解码器,Transformer架构,数据处理,强化学习等等。当然这本书也需要一定的技术基础,否则大概率看不懂。
机器学习——周志华版,是一本关于机器学习的书籍;机器学习是深度学习的前身,在大模型爆火之前,机器学习才是主要的研究方向。而这边机器学习书中介绍了多种机器学习的算法,如支持向量机,决策树,神经网络,监督学习,强化学习等,里面详细介绍了各种算法的实现原理。
多模态大模型算法,应用与微调——刘兆峰,这本书是一本更加偏向于理论方面的书籍,里面详细介绍了Transformer模型架构,GPT系列,以及深度生成模型等;而且还有一部分文本生成,图像生成和代码生成的案例,详细介绍了不同类型大模型的实现原理。
多模态大模型技术原理与实战,可以说是一本从应用角度来介绍大模型技术的书籍,其特点就是除了介绍了大模型的发展之外;着重介绍了中小企业大模型的构建之路,比如微信的微调,包括LoRA,AdaLoRA等;以及模型优化方案,剪枝,蒸馏等。还包括大模型的完整部署方案,以及基于大模型技术购机上层应用,如智能客服,基于思维链的AI助理等。
大规模语言模型从理论到实践,这本书主要侧重于大模型运维方面的内容,包括大模型的基础原理,以及大模型的训练和微调过程,包括前期的数据处理,大模型分布式并行计算以及监督微调的方法等。
这里只是介绍了基本作者个人感觉还不错的书籍,当然这些书籍可能并不适合每一个人;而且每本书的侧重方向也不一样,如果有对这些书籍感兴趣的读者可以选择性的购买。
以下是常用的一些网站:
huggingface:一个类似于github的托管网站,只不过github托管的是代码,huggingface托管的是大模型和数据集。
github官网:代码托管平台,很多大模型都是把模型托管在huggingface上,代码托管在github上。
openAI官网:chatGPT网站,提供了与chatGPT的交互以及openAI的服务接口(目前openAI屏蔽了中国大陆的接口服务,如果想使用可以使用一些第三方的镜像服务)
字节旗下coze(扣子)官网:提供了通过配置的方式即可体验AI代理的平台
aigc网站:一个提供各种AIGC能力的网站,比如文本生成,视频生成等
pytorch官网:由meta开发的一款基于torch架构的python实现的大模型开发框架
由于大模型技术属于一个新兴技术,最前沿,最权威的内容都在网络中,而书籍中的内容在某些方面已经有些过时了。当然,这里并不是说书不好,而是现今时代,信息变革太快,书籍更新的速度无法跟上。
还有一点就是,书籍虽然在某些方面过时了,但其系统性和专业性还是一般技术网站所无法比拟的。
原文链接: