Partager via


Conformité RGPD et CCPA avec Delta Lake

Cet article explique comment utiliser Delta Lake sur Azure Databricks pour gérer la conformité de votre lac de données au Règlement général sur la protection des données (RGPD) et au California Consumer Privacy Act (CCPA). La conformité nécessite souvent des suppressions de points ou la suppression d’enregistrements individuels au sein d’une grande collection de données. Delta Lake accélère les suppressions de points dans les grands lacs de données avec des transactions ACID, ce qui vous permet de localiser et de supprimer des informations personnelles identifiables (PII) en réponse aux demandes RGPD ou CCPA des consommateurs.

Planifier votre modèle de données pour la conformité

La modélisation de vos données pour la conformité est une étape importante dans le traitement des informations personnelles identifiables. Il existe de nombreuses approches viables en fonction des besoins de vos consommateurs de données.

Une approche fréquemment appliquée est la pseudonymisation ou la segmentation réversible d’éléments d’informations personnelles (identificateurs) aux clés (pseudonymes) qui ne peuvent pas être identifiées en externe. La conformité par pseudonymisation nécessite une planification minutieuse, avec notamment les éléments suivants :

  • Stockage d’informations d’une manière liée à des pseudonymes plutôt qu’à des identificateurs.
  • Maintien de stratégies strictes d’accès et d’utilisation des données qui combinent les identificateurs et les pseudonymes.
  • Pipelines ou stratégies de stockage pour supprimer les données brutes.
  • Logique permettant de localiser et de supprimer la liaison entre les pseudonymes et les identificateurs.

Comment Delta Lake simplifie les suppressions de points

Delta Lake a de nombreuses optimisations intégrées pour ignorer des données. Pour accélérer les suppressions de points, Databricks recommande d’utiliser l’ordre de plan sur les champs que vous utilisez pendant les opérations DELETE.

Delta Lake conserve l’historique d’une table et la rend disponible pour des requêtes et des restaurations jusqu’à une date et heure. La fonction VACUUM supprime les fichiers de données qui ne sont plus référencés par une table Delta et qui sont antérieurs à un seuil de rétention spécifié, en supprimant définitivement les données. Pour en savoir plus sur les valeurs par défaut et les recommandations, consultez Utiliser l’historique des tables Delta Lake.

Remarque

Pour les tables avec des vecteurs de suppression activés, vous devez également exécuter REORG TABLE ... APPLY (PURGE) pour supprimer définitivement les enregistrements sous-jacents. Consultez Appliquer des modifications aux fichiers de données Parquet.