GDPR 和 CCPA 與 Delta Lake 的合規性
本文說明如何使用 Azure Databricks 上的 Delta Lake 來管理數據湖的一般數據保護規定 (GDPR) 和加州消費者隱私權法案 (CCPA) 合規性。 合規性通常需要 刪除點,或刪除大量數據集合內的個別記錄。 Delta Lake 使用 ACID 交易加快大型數據湖中的點刪除速度,讓您找出並移除個人可識別的資訊(PII),以回應消費者 GDPR 或 CCPA 要求。
規劃數據模型以符合規範
將數據模型化以進行合規性是處理 PII 的重要步驟。 視數據取用者的需求而定,有許多可行的方法。
一個經常套用的方法是化名化,或可逆將個人資訊元素(標識符)的標記化為無法從外部識別的密鑰(化名)。 透過化名的合規性需要仔細規劃,包括下列各項:
- 以連結至假名而非標識符的方式儲存資訊。
- 維護嚴格原則,以存取和使用結合標識符和假名的數據。
- 要移除原始數據的管線或記憶體原則。
- 尋找和刪除化名與標識符之間連結的邏輯。
Delta Lake 如何簡化點刪除
Delta Lake 內建了許多 略過 優化的數據。 若要加速點刪除,Databricks 建議您在作業期間 DELETE
使用的欄位上使用 Z 順序。
Delta Lake 會保留數據表歷程記錄,並讓它可供時間點查詢和復原使用。 VACUUM 函式會移除 Delta 資料表不再參考的數據檔,而且比指定的保留閾值還舊,永久刪除數據。 若要深入瞭解預設值和建議,請參閱 使用 Delta Lake 數據表歷程記錄。
注意
針對已啟用刪除向量的數據表,您也必須執行 REORG TABLE ... APPLY (PURGE)
以永久刪除基礎記錄。 請參閱 將變更套用至 Parquet 資料檔。