- 这是很长时间以来最重要的论文。它用强有力的证据表明,我们正在达到量化的极限。论文得出的结论对整个领域以及GPU的未来有着广泛的影响。
- 将非常酷地看到如何SOTA量化方案(mxfp,Pw≠Pkv≠Pa等)推动前沿;在我看来,将一半的计算预算用于一次大规模运行以检查模型是否适用于大模型是值得的。
- 深度学习正朝着更低精度的方向发展。
当前的前沿模型(如Llama-3系列)在BF16中进行训练,并且大家都在努力将预训练范式转移到FP8,甚至下一代硬件将支持FP4;
- 精度、参数和数据之间的权衡是什么?它们在预训练和推理方面如何比较?
- 后训练量化(PTQ,即训练完成后对模型进行量化)引起的性能退化随着模型训练数据量的增加而增加。
- 在较低精度下进行训练可以减少模型的“有效参数数量(effective parameter count)”,从而预测在低精度下训练和后训练量化产生的额外损失。
- 预测在任何精度组合下的预训练和后训练损失
通信人家园 (https://test.txrjy.com/) | Powered by C114 |