Model Quantization
Keywords
Prerequisites
None — this is a starting concept.
Related Papers
Progress
Sign in to track your progress.
隨著大型語言模型的參數量動輒數十億甚至上千億,如何高效地儲存與載入這些 model weights 成為 storage system 的重要課題。Model quantization 透過降低 neural network weight 的數值精度(例如從 FP32 降到 INT8 或 INT4),大幅減少模型佔用的儲存空間與記憶體頻寬需求。我們會介紹 uniform quantization 與 non-uniform quantization 的差異,並比較 post-training quantization (PTQ) 與 quantization-aware training (QAT) 在 accuracy 與 throughput 之間的取捨。這個主題讓我們從 storage 的角度理解 ML inference 的效率瓶頸,也為閱讀 AnyBCQ 等利用 binary coded representation 的最新研究做好準備。
Key Concepts
我理解為何大型模型需要 quantization——參數量龐大導致儲存空間與記憶體頻寬成為瓶頸
我理解精度降低(FP32 到 INT8/INT4)如何減少模型的儲存大小與 memory bandwidth 需求
我理解 uniform quantization 與 non-uniform quantization 的差異,以及各自適用的情境
我理解 post-training quantization (PTQ) 與 quantization-aware training (QAT) 在 accuracy 與 inference throughput 之間的取捨
我了解 quantization 對模型準確度的影響,以及如何評估 inference throughput 的提升幅度