企业宣传,产品推广,广告招商,广告投放联系seowdb

GPU和CPU如何混合训练 大模型训练的GPU联手CPU显存优化分析方法

如果使用fluid.CUDAPlace指定了全局的运行设备,飞桨将会自动把支持GPU计算的OP分配在GPU上执行,然而当模型参数量过大并且显存有限时,很可能会遇到显存超出的情况。如下面的示例代码,embedding层的参数size包含两个元素,第一个元素为vocab_size(词表大小),第二个为emb_size(embedding层维度)。实际场景中,词表可能会非常大。示例代码中,词表大小被设置为10,000,000,该层创建的权重矩阵的大小为(10000000, 150),仅这一层就需要占用5.59G的显存。如果再加上其他的网络层,在这种大词表场景下,很有可能会显存超出。

© 版权声明
相关推荐
评论 抢沙发
每日一言
时间总把最好的人留到最后
Time always save the best for last