Formats de données pris en charge pour l’ingestion

Article
09/26/2024

S’applique à : ✅Microsoft Fabric ✅Azure Data Explorer

L’ingestion des données est le processus par lequel les données sont ajoutées à une table et mises à disposition pour la requête. Pour toutes les méthodes d’ingestion autres que l’ingestion à partir d’une requête, les données doivent être dans l’un des formats pris en charge. Le tableau suivant répertorie et décrit les formats pris en charge pour l’ingestion de données.

Remarque

Avant d’ingérer des données, vérifiez que celles-ci sont correctement mises en forme et qu’elles définissent les champs attendus. Nous vous recommandons d’utiliser votre validateur habituel pour vérifier que le format est valide. Par exemple, vous pouvez trouver les validateurs suivants utiles pour la vérification des fichiers CSV ou JSON :

CSV : http://csvlint.io/
JSON : https://jsonlint.com/

Pour plus d’informations sur la raison de l’échec de l’ingestion, consultez Échecs d’ingestion

et codes d’erreur d’ingestion dans Azure Data Explorer.

Format	Extension	Description
ApacheAvro	`.avro`	Format AVRO avec prise en charge des types logiques. Les codecs de compression suivants sont pris en charge : `null`, `deflate` et `snappy`. L’implémentation du lecteur du format `apacheavro` est basée sur la `apacheavro` officielle. Pour plus d’informations sur l’ingestion des fichiers Event Hub Capture Avro, consultez Ingestion des fichiers Event Hub Capture Avro.
Avro	`.avro`	Implémentation héritée du format AVRO basée sur la bibliothèque .NET. Les codecs de compression suivants sont pris en charge : `null`, `deflate` (pour `snappy`, utilisez le format de données `ApacheAvro`).
CSV	`.csv`	Fichier texte avec des valeurs séparées par des virgules (`,`). Consultez RFC 4180 : Common Format and MIME Type for Comma-Separated Values (CSV) Files.
JSON	`.json`	Fichier texte avec des objets JSON délimités par `\n` ou `\r\n`. Consultez JSON Lines (JSONL).
MultiJSON	`.multijson`	Fichier texte avec un tableau JSON de conteneurs des propriétés (représentant chacun un enregistrement) ou n’importe quel nombre de conteneurs des propriétés délimités par des espaces, `\n` ou `\r\n`. Chaque conteneur de propriétés peut être réparti sur plusieurs lignes.
ORC	`.orc`	Fichier ORC.
Parquet	`.parquet`	Fichier Parquet.
PSV	`.psv`	Fichier texte avec des valeurs séparées par des barres verticales (`\|`).
RAW	`.raw`	Fichier texte dont le contenu entier est une valeur de chaîne unique.
SCsv	`.scsv`	Fichier texte avec des valeurs séparées par des points-virgules (`;`).
SOHsv	`.sohsv`	Fichier texte avec des valeurs séparées par SOH. (SOH est le point de code ASCII 1 ; ce format est utilisé par Hive sur HDInsight.)
TSV	`.tsv`	Fichier texte avec des valeurs séparées par des tabulations (`\t`).
TSVE	`.tsv`	Fichier texte avec des valeurs séparées par des tabulations (`\t`). Une barre oblique inverse (`\`) est utilisée pour l’échappement.
TXT	`.txt`	Fichier texte dont les lignes sont délimitées par `\n`. Les lignes vides sont ignorées.
W3CLOGFILE	`.log`	Format du fichier journal web standardisé par le W3C.

Remarque

L’ingestion des systèmes de stockage de données qui fournissent des fonctionnalités ACID en plus des fichiers de format Parquet normaux (par ex., Apache Iceberg, Apache Hudi, Delta Lake) n’est pas prise en charge.
Avro sans schéma n’est pas pris en charge.

Pour plus d’informations sur l’ingestion de données à l’aide json ou multijson des formats, voir Ingérer des formats json.

Formats de compression de données pris en charge

Les objets blob et les fichiers peuvent être compressés par l’un des algorithmes de compression suivants :

Compression	Extension
gzip	.gz
zip	.zip

Indiquez la compression en ajoutant l’extension au nom de l’objet blob ou du fichier.

Par exemple :

MyData.csv.zip indique un objet blob ou un fichier au format CSV, compressé avec zip (archive ou fichier unique)
MyData.json.gz indique un objet blob ou un fichier au format JSON, compressé avec gzip.

Les noms d’objets blob ou de fichiers qui n’incluent pas les extensions de format mais simplement la compression (par exemple, MyData.zip) sont également pris en charge. Dans ce cas, le format de fichier doit être spécifié en tant que propriété d’ingestion, car il ne peut pas être déduit.

Notes

Certains formats de compression assurent le suivi de l’extension de fichier d’origine dans le cadre du flux compressé. Cette extension est généralement ignorée lors du processus de vérification du format de fichier. S’il n’est pas possible de déterminer le format de fichier à partir du nom de l’objet blob ou du fichier (compressé), vous devez le spécifier par le biais de la propriété d’ingestion format.
À ne pas confondre avec le codec de compression interne (au niveau du bloc) utilisé par les formats Parquet, AVRO et ORC. Le nom de la compression interne est généralement ajouté à un nom de fichier avant l’extension de format de fichier, par exemple file1.gz.parquet, file1.snappy.avro, etc.
La méthode de compression zip Deflate64/Enhanced Deflate n’est pas prise en charge. Notez que le compresseur zip intégré Windows peut choisir d’utiliser cette méthode de compression sur des fichiers de taille supérieure à 2 Go.

En savoir plus sur les formats de données pris en charge
En savoir plus sur les propriétés d’ingestion de données

Découvrez-en plus sur l’ingestion de données.

Partager via

Formats de données pris en charge pour l’ingestion

Formats de compression de données pris en charge

Commentaires

Ressources supplémentaires

Partager via

Formats de données pris en charge pour l’ingestion

Formats de compression de données pris en charge

Contenu connexe

Commentaires

Ressources supplémentaires