LLM 长序列 训练的 Sample Packing Attention 问题及优化

LLM 长序列 训练的 Sample Packing Attention 问题及优化

一、背景之前看过部分MegatronLM的源码,也详细分析过对应的Dataset和DataLoader,想当然的认为在LLM预训练时会使用DocumentLevel的Mask,也就是常说的SamplePacking技术,最近我们在做长序列训......
admigg 11-15
628 474 312