共用方式為


GDPR 和 CCPA 與 Delta Lake 的合規性

本文說明如何使用 Azure Databricks 上的 Delta Lake 來管理數據湖的一般數據保護規定 (GDPR) 和加州消費者隱私權法案 (CCPA) 合規性。 合規性通常需要 刪除點,或刪除大量數據集合內的個別記錄。 Delta Lake 使用 ACID 交易加快大型數據湖中的點刪除速度,讓您找出並移除個人可識別的資訊(PII),以回應消費者 GDPR 或 CCPA 要求。

規劃數據模型以符合規範

將數據模型化以進行合規性是處理 PII 的重要步驟。 視數據取用者的需求而定,有許多可行的方法。

一個經常套用的方法是化名化,或可逆將個人資訊元素(標識符)的標記化為無法從外部識別的密鑰(化名)。 透過化名的合規性需要仔細規劃,包括下列各項:

  • 以連結至假名而非標識符的方式儲存資訊。
  • 維護嚴格原則,以存取和使用結合標識符和假名的數據。
  • 要移除原始數據的管線或記憶體原則。
  • 尋找和刪除化名與標識符之間連結的邏輯。

Delta Lake 如何簡化點刪除

Delta Lake 內建了許多 略過 優化的數據。 若要加速點刪除,Databricks 建議您在作業期間 DELETE 使用的欄位上使用 Z 順序。

Delta Lake 會保留數據表歷程記錄,並讓它可供時間點查詢和復原使用。 VACUUM式會移除 Delta 資料表不再參考的數據檔,而且比指定的保留閾值還舊,永久刪除數據。 若要深入瞭解預設值和建議,請參閱 使用 Delta Lake 數據表歷程記錄

注意

針對已啟用刪除向量的數據表,您也必須執行 REORG TABLE ... APPLY (PURGE) 以永久刪除基礎記錄。 請參閱 將變更套用至 Parquet 資料檔