Advanced

Model Quantization

Keywords

model quantizationFP32INT8INT4uniform quantizationnon-uniform quantizationPTQQATinference throughputmodel compressionAsk ChatGPT

Prerequisites

None — this is a starting concept.

Progress

隨著大型語言模型的參數量動輒數十億甚至上千億，如何高效地儲存與載入這些 model weights 成為 storage system 的重要課題。Model quantization 透過降低 neural network weight 的數值精度（例如從 FP32 降到 INT8 或 INT4），大幅減少模型佔用的儲存空間與記憶體頻寬需求。我們會介紹 uniform quantization 與 non-uniform quantization 的差異，並比較 post-training quantization (PTQ) 與 quantization-aware training (QAT) 在 accuracy 與 throughput 之間的取捨。這個主題讓我們從 storage 的角度理解 ML inference 的效率瓶頸，也為閱讀 AnyBCQ 等利用 binary coded representation 的最新研究做好準備。

Key Concepts

我理解為何大型模型需要 quantization——參數量龐大導致儲存空間與記憶體頻寬成為瓶頸

我理解精度降低（FP32 到 INT8/INT4）如何減少模型的儲存大小與 memory bandwidth 需求

我理解 uniform quantization 與 non-uniform quantization 的差異，以及各自適用的情境

我理解 post-training quantization (PTQ) 與 quantization-aware training (QAT) 在 accuracy 與 inference throughput 之間的取捨

我了解 quantization 對模型準確度的影響，以及如何評估 inference throughput 的提升幅度

Model Quantization

Keywords

Prerequisites

Related Papers

Progress

Key Concepts

Recommended Resources

Test Your Understanding