Partager via


Charger des données à l’aide d’un emplacement externe Unity Catalog

Important

Cette fonctionnalité est disponible en préversion publique.

Cet article explique comment utiliser l’IU d’ajout de données pour créer une table managée à partir de données dans Azure Data Lake Storage Gen2 à l’aide d’un emplacement externe Unity Catalog. Un emplacement externe est un objet qui combine un chemin de stockage avec des informations d'identification de stockage qui autorise l'accès à ce chemin.

Avant de commencer

Avant de commencer la lecture cet article, vous devez disposer des éléments suivants :

Types de fichier

Les types de fichiers suivants sont pris en charge :

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Étape 1 : Confirmer l’accès à l’emplacement externe

Pour confirmer l’accès à l’emplacement externe, effectuez ce qui suit :

  1. Dans la barre latérale de votre espace de travail Azure Databricks, cliquez sur Catalogues.
  2. Dans l'Explorateur de catalogue, cliquez sur Emplacements externes>des données externes.

Étape 2 : Créer la table managée

Pour créer la table managée, effectuez ce qui suit :

  1. Dans la barre latérale de votre espace de travail, cliquez sur + Nouveau>Ajouter des données.

  2. Dans l’IU d’ajout de données, cliquez sur Azure Data Lake Storage.

  3. Sélectionnez un emplacement externe dans la liste déroulante.

  4. Sélectionnez les dossiers et les fichiers à charger dans Azure Databricks, puis cliquez sur Aperçu de la table.

  5. Sélectionnez un catalogue et un schéma dans les listes déroulantes.

  6. (Facultatif)Modifiez le nom du tableau.

  7. (Facultatif) Pour définir les options de format avancées par type de fichier, cliquez sur Attributs avancés, désactivez Détecter automatiquement le type de fichier, puis sélectionnez un type de fichier.

    Pour obtenir la liste des options de format, consultez la section suivante.

  8. (Facultatif) Pour modifier le nom de la colonne, cliquez sur la zone d’entrée en haut de la colonne.

    Les noms de colonnes ne prennent pas en charge les virgules, les barres obliques inverses ou les caractères Unicode (par exemple les emojis).

  9. (Facultatif) Pour modifier les types de colonnes, cliquez sur l’icône correspondant au type.

  10. Cliquez sur Créer une table.

Options de format selon le type de fichier

Les options de format suivantes sont disponibles en fonction du type de fichier :

Option de format Description Types de fichiers pris en charge
Column delimiter Caractère de séparation entre les colonnes. Un seul caractère est autorisé et la barre oblique inverse n’est pas prise en charge.

La valeur par défaut est une virgule.
CSV
Escape character Caractère d’échappement à utiliser lors de l’analyse des données.

La valeur par défaut est un guillemet.
CSV
First row contains the header Cette option spécifie si le fichier contient un en-tête.

Activée par défaut.
CSV
Automatically detect file type Détectez automatiquement le type de fichier. La valeur par défaut est true. XML
Automatically detect column types Permet de détecter automatiquement les types de colonnes à partir du contenu du fichier. Vous pouvez modifier les types dans l’aperçu de la table. Si ce paramètre est défini sur false (faux), tous les types de colonnes sont considérés comme étant STRING.

Activée par défaut.
- CSV

- JSON
- XML
Rows span multiple lines Indique si la valeur d’une colonne peut s’étendre sur plusieurs lignes dans le fichier.

Désactivé par défaut.
- CSV

- JSON
Merge the schema across multiple files Indique s’il faut déduire le schéma entre plusieurs fichiers et fusionner le schéma de chaque fichier.

Activée par défaut.
CSV
Allow comments Indique si les commentaires sont autorisés dans le fichier.

Activée par défaut.
JSON
Allow single quotes Indique si les guillemets simples sont autorisés dans le fichier.

Activée par défaut.
JSON
Infer timestamp Indique s’il est nécessaire d’essayer de déduire les chaînes d’horodatage en tant que TimestampType.

Activée par défaut.
JSON
Rescued data column Indique s’il est nécessaire d’enregistrer les colonnes qui ne correspondent pas au schéma. Pour plus d’informations, consultez Qu’est-ce que la colonne de données récupérées ?.

Activée par défaut.
- CSV

- JSON
- Avro
- Parquet
Exclude attribute Indique s’il faut exclure des attributs dans les éléments. La valeur par défaut est false. XML
Attribute prefix Le préfixe des attributs pour différencier les attributs des éléments. La valeur par défaut est _. XML

Types de données de colonne

Les types de données de colonne suivants sont pris en charge. Pour plus d’informations sur les types de données individuels, consultez Types de données de SQL.

Type de données Description
BIGINT Nombres entiers signés de 8 octets.
BOOLEAN Valeurs booléennes (true, false)
DATE et jour, sans fuseau horaire.
DECIMAL (P,S) Nombres avec une précision maximale P et une échelle fixe S.
DOUBLE Nombres à virgule flottante double précision de 8 octets.
STRING Valeurs de chaîne de caractères.
TIMESTAMP Valeurs comprenant des valeurs de champs Année, Mois, Jour, Heure, Minute et Seconde, avec le fuseau horaire local de la session.

Problèmes connus

  • Vous pouvez rencontrer des problèmes avec les caractères spéciaux dans les types de données complexes, par exemple un objet JSON dont la clé contient un accent grave ou le signe deux-points.
  • Certains fichiers JSON peuvent vous obliger à sélectionner manuellement JSON en tant que type de fichier. Pour sélectionner manuellement un type de fichier après avoir sélectionné des fichiers, cliquez sur Attributs avancés, désactivez Détecter automatiquement le type de fichier, puis sélectionnez JSON.
  • Les horodatages et les nombres décimaux imbriqués dans des types complexes peuvent poser des problèmes.