Partilhar via


Formatos de dados compatíveis com ingestão

Aplica-se a: ✅Microsoft FabricAzure Data Explorer

A ingestão de dados é o processo pelo qual os dados são adicionados a uma tabela e disponibilizados para consulta. Para todos os métodos de ingestão diferentes da ingestão de consulta, os dados precisam estar em um dos formatos compatíveis. A tabela a seguir lista e descreve os formatos com suporte para ingestão de dados.

Observação

Antes de ingerir dados, verifique se os dados estão formatados corretamente e definem os campos esperados. Recomendamos usar seu validador preferido para confirmar se o formato é válido. Por exemplo, os seguintes validadores podem ser úteis para verificar arquivos CSV ou JSON:

Para obter mais informações sobre por que a assimilação pode falhar, consulte Falhas de assimilação

Formatar Extensão Descrição
ApacheAvro .avro Um formato AVRO com suporte para tipos lógicos. Há suporte para os seguintes codecs de compactação: null, deflate e snappy. A implementação de leitor do formato apacheavro é baseada na apacheavro. Para obter informações sobre como ingerir arquivos Avro de Captura do Hub de Eventos, confira Ingestão de arquivos Avro de Captura do Hub de Eventos.
Avro .avro Uma implementação herdada para o formato AVRO com base na biblioteca .NET. Há suporte para os seguintes codecs de compactação: null, deflate (para snappy, use o formato de dados ApacheAvro).
CSV .csv Um arquivo de texto com valores separados por vírgulas (,). Confira RFC 4180: Formato comum e tipo MIME para arquivos CSV (valores separados por vírgula).
JSON .json Um arquivo de texto com objetos JSON delimitados por \n ou \r\n. Confira JSONL (Linhas JSON).
MultiJSON .multijson Um arquivo de texto com uma matriz JSON de recipientes de propriedades (cada um representando um registro) ou qualquer número de recipientes de propriedades delimitados por espaço em branco, \n ou \r\n. Cada recipiente de propriedades pode ser distribuído em várias linhas.
ORC .orc Um arquivo ORC.
Parquet .parquet Um arquivo Parquet.
PSV .psv Um arquivo de texto com valores separados por pipe (|).
RAW .raw Um arquivo de texto cujo conteúdo inteiro é um valor de cadeia de caracteres único.
SCsv .scsv Um arquivo de texto com valores separados por ponto e vírgula (;).
SOHsv .sohsv Um arquivo de texto com valores separados por SOH. (SOH é o ponto de código ASCII 1; esse formato é usado pelo Hive no HDInsight.)
TSV .tsv Um arquivo de texto com valores separados por tabulações (\t).
TSVE .tsv Um arquivo de texto com valores separados por tabulações (\t). Um caractere de barra invertida (\) é usado para escapar.
TXT .txt Um arquivo de texto com linhas delimitadas por \n. Linhas vazias são ignoradas.
W3CLOGFILE .log Formato de arquivo de log da Web padronizado pelo W3C.

Observação

  • Não há suporte para a ingestão de dados de sistemas de armazenamento que oferecem a funcionalidade ACID com base em arquivos de formato Parquet regulares (por exemplo, Apache Iceberg, Apache Hudi e Delta Lake).
  • Não há suporte para Avro sem esquema.

Para obter mais informações sobre como ingerir dados usando json formatos or multijson , consulte assimilar formatos json.

Formatos de compactação de dados compatíveis

Os blobs e os arquivos podem ser compactados por meio de um dos seguintes algoritmos de compactação:

Compactação Extensão
gzip .gz
zip .zip

Indique a compactação acrescentando a extensão ao nome do blob ou do arquivo.

Por exemplo:

  • MyData.csv.zip indica um blob ou um arquivo formatado como CSV, compactado com zip (arquivo ou um único arquivo)
  • MyData.json.gz indica um blob ou um arquivo formatado como JSON, compactado com gzip.

Também há suporte para nomes de blobs ou arquivos que não incluem as extensões de formato, mas apenas a compactação (por exemplo, MyData.zip). Nesse caso, o formato de arquivo precisa ser especificado como uma propriedade de ingestão porque não pode ser inferido.

Observação

  • Alguns formatos de compactação controlam a extensão do arquivo original como parte do fluxo compactado. Essa extensão é geralmente ignorada para determinar o formato do arquivo. Se o formato do arquivo não puder ser determinado com base no nome do arquivo ou blob (compactado), ele deverá ser especificado por meio da propriedade de ingestão format.
  • Não deve ser confundido com o codec de compactação interna (nível de parte) usado pelos formatos Parquet, AVRO e ORC. O nome de compactação interna normalmente é adicionado a um nome de arquivo antes da extensão de formato de arquivo, por exemplo: file1.gz.parquet, file1.snappy.avro etc.
  • O método de compactação zip Deflate64/Enhanced Deflate não é suportado. Observe que o compressor zip integrado do Windows pode optar por usar esse método de compactação em arquivos com mais de 2 GB.