上 优雅谈大模型 白话ZeRO

上 优雅谈大模型 白话ZeRO

并行策略正如和分布式一样,如何利用多设备和多硬件也是很重要的一个环节,大模型训练也是如此,如今训练大模型离不开各种分布式并行策略,常用的并行策略包括,数据并行,dataparallelism,DP,假设有N张显卡,每张显卡都加载完整的模型,......
admigg 11-15
173 420 605