长序列_朵贝贝家具网

LLM 长序列训练的 Sample Packing Attention 问题及优化

一、背景之前看过部分MegatronLM的源码，也详细分析过对应的Dataset和DataLoader，想当然的认为在LLM预训练时会使用DocumentLevel的Mask，也就是常说的SamplePacking技术，最近我们在做长序列训......

文化宣传

admigg 11-15

628 474 312

共1页 1条