Law后继乏力 AI大佬齐刷刷附议 Scaling 今日最热论文量化也不管用

几十万人关注，一发表即被行业大佬评为“这是很长时间以来最重要的论文”。

哈佛、斯坦福、MIT等团队的一项研究表明：训练的token越多，需要的精度就越高。

例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的增加，计算最优的精度也会增加。

换句话就是，对于大规模的训练任务，低精度的量化可能不再足够有效。

按照结论，对Scaling Law的遵循意味着我们需要保持更高精度，然而一直以来，人们通常会选择量化（将连续值或多精度值转换为较低精度）来节省计算资源。

一旦结论成立，GPU的设计和功能可能也需要相应调整，因为传统上，GPU的性能提升部分依赖于对低精度计算的优化。

正如艾伦AI研究所科学家所指出的：

与此同时，研究得出了 两个重要结论 ：

这也引来OpenAI员工大赞特赞：

一上来，研究就指出，当前扩展的焦点主要放在了模型规模、数据量上，忽视了对精度的关注。

而事实上，随着模型进一步应用落地，低精度量化正在成为新的范式。

因此，研究想要搞清：

具体而言，团队研究了在预训练和后训练，随着数据和参数的变化，精度对损失的影响如何变化。

同时，为了精确测量相关变化，团队专门提出了 “精度感知（precision-aware）” 的Scaling Laws，以预测和优化不同精度下的语言模型训练和推理。

先说结论。下图展示了两个主要的实验结果：

具体而言，左侧图表展示了在不同精度下训练模型的效果。

其中纵轴表示最终的验证损失（Val Loss），横轴表示不同的模型规模（Model Size），从30M到220M参数。不同的颜色代表了不同的训练精度，从INT3到INT6，以及没有后训练量化（No PTQ）。

研究发现，在较低精度下训练模型（例如INT3和INT4）会导致较高的损失，而随着精度的提高，损失会减少；同时，随着模型规模的增加，损失也会减少。

另外，右侧图表展示了在不同精度下 进行推理 时的模型性能。

其中横轴表示了推理时的权重精度（Final Val Loss）。

结果显示，在推理时使用较低精度（例如INT3和INT4）会导致性能下降，即损失的增加；而随着精度的提高，损失会逐渐减少，接近没有进行后训练量化的模型性能。

上述发现也解释了为什么Llama-3难以量化？

要知道，Llama-3发布后，它因“超15T Token数据上的超大规模预训练”而闻名，不过人们后来发现，Llama-3低比特量化性能下降显著。

这可能正如研究提到的，模型在预训练阶段看到的数据越多，对量化的敏感性就越高。

与此同时，研究还发现了：

换句话说，在大量数据上训练的模型，如果在推理时进行低精度的PTQ，可能会导致性能显著下降。

接下来，团队提出利用“精度感知”Scaling Laws来预测模型在不同精度下的性能，并指出：

其中包含两个关键公式，它们构成了一个统一的理论框架，用于预测不同精度下训练和推理的性能。

训练后量化（PTQ）引起的损失退化预测公式：

考虑训练精度的模型损失预测公式：

BTW，研究最终将后训练量化和预训练量化的影响统一起来，以此实现：

Law后继乏力 AI大佬齐刷刷附议 Scaling 今日最热论文 量化也不管用