Deduplication
AdvancedAdvanced

Deduplication

Keywords

deduplicationfingerprintSHA-256content-addressed storagefixed-size chunkingvariable-size chunkingRabin fingerprintinline dedupoffline dedupreference countingAsk ChatGPT

Prerequisites

Progress

Sign in to track your progress.

在前面學過 data compression 消除資料內部的冗餘之後,我們進一步探討如何消除資料之間的重複。Deduplication 利用 cryptographic hashing(如 SHA-256)對資料區塊計算 fingerprint,將內容相同的區塊只儲存一份,實現 content-addressed storage。課堂上我們會比較 fixed-size chunking 與 variable-size chunking(基於 Rabin fingerprint)在 dedup ratio 與計算成本上的差異,並討論 inline dedup(寫入時即時去重)與 offline dedup(背景批次處理)的適用場景。Reference counting 的管理也是實務上的挑戰,因為它直接影響到資料何時可以被安全刪除。

Key Concepts

我理解 cryptographic hashing(如 SHA-256)如何對資料區塊計算 fingerprint,用以識別內容相同的區塊

我理解 content-addressed storage 的概念,即以資料內容的 hash 作為定址依據,使相同內容只儲存一份

我理解 fixed-size chunking 與 variable-size chunking(基於 Rabin fingerprint)在 dedup ratio 與計算成本上的差異

我理解 inline dedup(寫入時即時去重)與 offline dedup(背景批次處理)各自的適用場景與效能影響

我了解 reference counting 在 deduplication 中的作用,以及它如何決定資料何時可以被安全刪除

Recommended Resources

Test Your Understanding