Partager via


Meilleures pratiques pour charger en masse des données dans Azure Database pour PostgreSQL – Serveur flexible

S’APPLIQUE À : Azure Database pour PostgreSQL – Serveur flexible

Cet article décrit les différentes méthodes de chargement de données en masse dans le serveur flexible Azure Database pour PostgreSQL, ainsi que les meilleures pratiques de chargement de données initiaux dans des bases de données vides et de chargement de données incrémentiels.

Méthodes de chargement

Les méthodes de chargement de données suivantes sont organisées de la plus longue à la moins longue :

  • Exécutez une commande INSERT à enregistrement unique.
  • Réalisez des lots compris entre 100 et 1 000 lignes par validation. Vous pouvez utiliser un bloc de transaction pour envelopper plusieurs enregistrements par validation.
  • Exécutez INSERT avec plusieurs valeurs de ligne.
  • Exécutez la commande COPY.

La méthode recommandée pour charger des données dans une base de données est la commande COPY. Si la commande COPY est impossible, le traitement INSERT est la deuxième meilleure méthode. Le multithreading avec une commande COPY est optimal pour les chargements en bloc de données.

Étapes pour charger des données en bloc

Voici les étapes à suivre pour charger en bloc des données sur un serveur flexible Azure Database pour PostgreSQL.

Étape 1 : préparer vos données

Vérifiez que vos données sont propres et correctement mises en forme pour la base de données.

Étape 2 : Choisir la méthode de chargement

Sélectionnez la méthode de chargement appropriée en fonction de la taille et de la complexité de vos données.

Étape 3 : Exécuter la méthode de chargement

Exécutez la méthode de chargement choisie pour charger vos données dans la base de données.

Étape 4 : Vérifier les données

Après le chargement, vérifiez que les données ont été correctement chargées dans la base de données.

Meilleures pratiques pour les chargements de données initiales

Voici les meilleures pratiques pour les chargements de données initiaux.

Supprimer les index

Avant d’effectuer un chargement initial de données, nous vous recommandons de supprimer tous les index des tables. La création des index après le chargement des données est toujours plus efficace.

Supprimer les contraintes

Les principales contraintes à supprimer sont décrites ici :

  • Contraintes de clés uniques

Pour obtenir de bonnes performances, nous recommandons de supprimer les contraintes de clé unique avant le chargement initial des données et de les recréer une fois le chargement terminé. Toutefois, la suppression des contraintes de clé unique annule les protections contre les données dupliquées.

  • Contraintes de clés étrangères

Nous recommandons de supprimer les contraintes de clés étrangères avant le chargement initial des données et de les recréer une fois le chargement des données terminé.

Le fait de modifier le paramètre session_replication_role pour le définir sur replica désactive également toutes les vérifications de clé étrangère. Cependant, si le changement n'est pas correctement utilisé, il peut entraîner des incohérences dans les données.

Tables non journalisées

Tenez compte des avantages et inconvénients des tables non journalisées avant de les utiliser dans les charges de données initiales.

L’utilisation de tables non journalisées accélère le chargement des données. Les données écrites dans des tables non journalisées ne sont pas écrites dans le journal WAL (write-ahead log).

Les inconvénients liés à l’utilisation de tables non journalisées sont les suivants :

  • Elles ne sont pas protégées contre les incidents. Une table non journalisée est automatiquement tronquée après un incident ou un arrêt brutal.
  • Les données des tables non journalisées ne peuvent pas être répliquées sur des serveurs de secours.

Pour créer une table non journalisée ou modifier une table existante en table non journalisée, utilisez les options suivantes :

  • Créez une nouvelle table non journalisée en utilisant la syntaxe :

    CREATE UNLOGGED TABLE <tablename>;
    
  • Convertissez une table journalisée existante en table non journalisée en utilisant la syntaxe suivante :

    ALTER TABLE <tablename> SET UNLOGGED;
    

Optimisation des paramètres de serveur

  • auto vacuum': It's best to turn off vide automatiquement pendant la charge initiale des données. Une fois le chargement initial terminé, nous vous recommandons d’exécuter un VACUUM ANALYZE manuel sur toutes les tables de la base de données, puis d’activer auto vacuum.

Remarque

Suivez les recommandations indiquées ici uniquement s’il y a suffisamment de mémoire et d’espace disque.

  • maintenance_work_mem : Peut être défini sur un maximum de 2 gigaoctets (Go) sur une instance de serveur flexible Azure Database pour PostgreSQL. maintenance_work_mem permet d’accélérer la création de clés étrangères, d’index et le nettoyage automatique.

  • checkpoint_timeout : Sur une instance de serveur flexible Azure Database pour PostgreSQL, la valeur checkpoint_timeout peut être augmentée à un maximum de 24 heures à partir du paramètre par défaut de 5 minutes. Nous vous recommandons d’augmenter la valeur à 1 heure avant de charger initialement des données sur l’instance de serveur flexible Azure Database pour PostgreSQL.

  • checkpoint_completion_target : nous recommandons une valeur de 0,9.

  • max_wal_size : Peut être défini sur la valeur maximale autorisée sur une instance de serveur flexible Azure Database pour PostgreSQL, qui est de 64 Go pendant que vous effectuez le chargement de données initial.

  • wal_compression : peut être activé. L’activation de ce paramètre peut entraîner des coûts d’UC supplémentaires pour la compression pendant la journalisation en écriture anticipée (WAL) et la décompression pendant la relecture WAL.

Recommandations

Avant de commencer un chargement de données initial sur l’instance de serveur flexible Azure Database pour PostgreSQL, nous vous recommandons de :

  • Désactiver la haute disponibilité sur le serveur. Vous pouvez l’activer une fois le chargement initial terminé sur le serveur principal.
  • Créer des réplicas en lecture une fois le chargement initial des données terminé.
  • Rendre la journalisation minimale ou la désactiver complètement pendant les chargements de données initiaux (par exemple : désactiver pgaudit, pg_stat_statements, magasin de requêtes).

Recréer des index et ajouter des contraintes

En supposant que vous avez supprimé les index et les contraintes avant le chargement initial, nous vous recommandons d’utiliser les valeurs élevées dans maintenance_work_mem (comme mentionné précédemment) pour créer des index et ajouter des contraintes. En outre, à compter de PostgreSQL version 11, les paramètres suivants peuvent être modifiés pour accélérer la création d’index parallèle après le chargement initial des données :

  • max_parallel_workers : définit le nombre maximal de Workers que le système peut prendre en charge pour les requêtes parallèles.

  • max_parallel_maintenance_workers : contrôle le nombre maximal de processus Worker, qui peuvent être utilisés dans CREATE INDEX.

Vous pouvez également créer les index en utilisant les paramètres recommandés au niveau de la session. Voici un exemple de la procédure à suivre :

SET maintenance_work_mem = '2GB';
SET max_parallel_workers = 16;
SET max_parallel_maintenance_workers = 8;
CREATE INDEX test_index ON test_table (test_column);

Meilleures pratiques pour les chargements de données incrémentielles

Les meilleures pratiques pour les chargements de données incrémentielles sont décrites ici :.

Partitionner des tables

Nous vous recommandons toujours de partitionner des tables volumineuses. Voici certains avantages du partitionnement, en particulier pendant les chargements incrémentiels :

  • La création de nouvelles partitions basées sur les nouveaux deltas permet d’ajouter facilement de nouvelles données à la table.
  • La gestion des tables devient plus facile. Vous pouvez supprimer une partition pendant un chargement incrémentiel des données pour éviter les suppressions fastidieuses dans les tables volumineuses.
  • Le nettoyage automatique est déclenché uniquement sur les partitions qui ont été modifiées ou ajoutées pendant les chargements de données incrémentielles, ce qui facilite la maintenance des statistiques sur la table.

Maintenir à jour les statistiques sur la table

La surveillance et la maintenance des statistiques sur la table sont importantes pour les performances des requêtes sur la base de données. Cela inclut également les scénarios dans lesquels vous avez des chargements de données incrémentielles. PostgreSQL utilise le processus de démon de nettoyage automatique pour nettoyer les tuples morts et analyser les tables pour maintenir les statistiques à jour. Pour plus d’informations, consultez Surveillance et réglage du nettoyage automatique.

Créer des index sur des contraintes de clé étrangère

La création d’index sur des clés étrangères dans les tables enfants peut être bénéfique dans les scénarios suivants :

  • Mises à jour ou suppressions de données dans la table parent. Lorsque les données sont mises à jour ou supprimées dans la table parent, les recherches sont effectuées dans la table enfant. Pour accélérer les recherches, vous pouvez indexer les clés étrangères sur la table enfant.
  • Les requêtes, où vous pouvez voir la jointure de tables parentes et enfants sur des colonnes clés.

Identifier les index inutilisés

Identifiez les index inutilisés dans la base de données et supprimez-les. Les index constituent une surcharge pour les chargements de données. Plus les index d’une table sont réduits, meilleures sont les performances pendant l’ingestion des données.

Vous pouvez identifier les index inutilisés de deux façons : par magasin des requêtes et dans une requête d’utilisation d’index.

Magasin de requêtes

La fonctionnalité Magasin des requêtes permet d’identifier les index, qui peuvent être supprimés en fonction des modèles d’utilisation des requêtes sur la base de données. Pour des conseils étape par étape, consultez Magasin de requêtes.

Une fois que vous avez activé la fonctionnalité Magasin des requêtes sur le serveur, vous pouvez utiliser la requête suivante pour identifier les index qui peuvent être supprimés en vous connectant à la base de données azure_sys.

SELECT * FROM IntelligentPerformance.DropIndexRecommendations;

Utilisation de l’index

Vous pouvez également utiliser la requête suivante pour identifier les index inutilisés :

SELECT
    t.schemaname,
    t.tablename,
    c.reltuples::bigint                            AS num_rows,
 pg_size_pretty(pg_relation_size(c.oid))        AS table_size,
    psai.indexrelname                              AS index_name,
 pg_size_pretty(pg_relation_size(i.indexrelid)) AS index_size,
    CASE WHEN i.indisunique THEN 'Y' ELSE 'N' END AS "unique",
    psai.idx_scan                                  AS number_of_scans,
    psai.idx_tup_read                              AS tuples_read,
    psai.idx_tup_fetch                             AS tuples_fetched
FROM
 pg_tables t
    LEFT JOIN pg_class c ON t.tablename = c.relname
    LEFT JOIN pg_index i ON c.oid = i.indrelid
    LEFT JOIN pg_stat_all_indexes psai ON i.indexrelid = psai.indexrelid
WHERE
    t.schemaname NOT IN ('pg_catalog', 'information_schema')
ORDER BY 1, 2;

Les colonnes number_of_scans, tuples_read et tuples_fetched indiquent la valeur de colonne usage.number_of_scans de l’index de zéro points comme index inutilisé.

Optimisation des paramètres de serveur

Notes

Suivez les recommandations dans les paramètres suivants uniquement s’il y a suffisamment de mémoire et d’espace disque.

  • maintenance_work_mem : Ce paramètre peut être défini sur un maximum de 2 Go sur l’instance de serveur flexible Azure Database pour PostgreSQL. maintenance_work_mem accélère la création d’index et les ajouts de clés étrangères.

  • checkpoint_timeout : Sur l’instance de serveur flexible Azure Database pour PostgreSQL, la valeur checkpoint_timeout peut être augmentée à 10 ou 15 minutes à partir du paramètre par défaut de 5 minutes. L’augmentation du paramètre checkpoint_timeout pour le définir sur une valeur supérieure, telle que 15 minutes, peut réduire la charge d’E/S, mais l’inconvénient est qu’il faut plus de temps pour récupérer en cas d’incident. Nous vous recommandons d’y apporter une attention particulière avant d’apporter la modification.

  • checkpoint_completion_target : nous recommandons une valeur de 0,9.

  • max_wal_size : cette valeur dépend de la référence SKU, du stockage et de la charge de travail. Une façon de trouver la valeur appropriée pour max_wal_size est indiquée dans l’exemple suivant.

Pendant les heures de pointe, atteignez une valeur en procédant comme suit :

a. Prenez le numéro séquentiel de journal WAL actuel en exécutant la requête suivante :

SELECT pg_current_wal_lsn ();

b. Attendez pendant checkpoint_timeout secondes. Prenez le numéro séquentiel de journal WAL actuel en exécutant la requête suivante :

SELECT pg_current_wal_lsn ();

c. Utilisez les deux résultats pour vérifier la différence en Go :

SELECT round (pg_wal_lsn_diff('LSN value when running the second time','LSN value when run the first time')/1024/1024/1024,2) WAL_CHANGE_GB;
  • wal_compression : peut être activé. L’activation de ce paramètre peut entraîner un coût d’UC supplémentaire pour la compression pendant la journalisation WAL et la décompression pendant la relecture WAL.