Criar regras de padrão de conjunto de recursos
Os sistemas de processamento de dados em escala normalmente armazenam uma única tabela no armazenamento como vários arquivos. Esse conceito é representado no Microsoft Purview usando conjuntos de recursos. Um conjunto de recursos é um único objeto no catálogo de dados que representa um grande número de ativos no armazenamento. Para saber mais, confira Entender conjuntos de recursos.
Ao examinar uma conta de armazenamento, o Microsoft Purview usa um conjunto de padrões definidos para determinar se um grupo de ativos é um conjunto de recursos. Em alguns casos, o agrupamento de conjuntos de recursos do Microsoft Purview pode não refletir com precisão seu patrimônio de dados. As regras de padrão de conjunto de recursos permitem personalizar ou substituir como o Microsoft Purview detecta quais ativos são agrupados como conjuntos de recursos e como eles são exibidos no catálogo.
Atualmente, há suporte para regras de padrão nos seguintes tipos de origem:
- Azure Data Lake Storage Gen2
- Azure Storage Blob
- Arquivos do Azure
- Amazon S3
O conjunto de recursos avançado deve ser habilitado para criar regras de padrão de conjunto de recursos. Para saber mais, confira Entender conjuntos de recursos avançados.
Como criar uma regra de padrão de conjunto de recursos
Siga as etapas abaixo para criar uma nova regra de padrão de conjunto de recursos:
Vá para o mapa de dados. Selecione Regras de padrão no menu no título Gerenciamento de origem. Selecione + Novo para criar um novo conjunto de regras.
Insira o escopo da regra de padrão do conjunto de recursos. Selecione o tipo de conta de armazenamento e o nome da conta de armazenamento na qual você deseja criar uma regra definida. Cada conjunto de regras é aplicado em relação a um escopo de caminho de pasta especificado no campo Caminho da pasta .
Para inserir uma regra para um escopo de configuração, selecione + Nova Regra.
Insira nos seguintes campos para criar uma regra:
Nome da regra: O nome da regra de configuração. Esse campo não tem efeito sobre os ativos aos que a regra se aplica.
Nome qualificado: Um caminho qualificado que usa uma combinação de texto, substituidores dinâmicos e substituidores estáticos para corresponder ativos à regra de configuração. Esse caminho é relativo ao escopo da regra de configuração. Confira a seção de sintaxe abaixo para obter instruções detalhadas sobre como especificar nomes qualificados.
Nome da exibição: O nome de exibição do ativo. Esse campo é opcional. Use texto simples e substituidores estáticos para personalizar como um ativo é exibido no catálogo. Para obter instruções mais detalhadas, confira a seção sintaxe abaixo.
Não agrupar como conjunto de recursos: Se habilitado, o recurso correspondente não será agrupado em um conjunto de recursos.
Salve a regra selecionando Adicionar.
Observação
Depois que uma regra de padrão for criada, todas as novas verificações aplicarão a regra durante a ingestão. Os ativos existentes no catálogo de dados serão atualizados por meio de um processo em segundo plano que pode levar até algumas horas.
Sintaxe de regra padrão
Ao criar regras de padrão de conjunto de recursos, use a sintaxe a seguir para especificar a quais regras de ativos se aplicam.
Substituidores dinâmicos (colchetes individuais)
Colchetes únicos são usados como substituidores dinâmicos em regras de padrão. Especifique um substituto dinâmico no nome qualificado usando o formato {<replacerName:<replacerType>}
. Se correspondidos, os substituidores dinâmicos serão usados como uma condição de agrupamento que indica que os ativos devem ser representados como um conjunto de recursos. Se os ativos forem agrupados em um conjunto de recursos, o caminho qualificado do conjunto de recursos conterá {replacerName}
onde o substituto foi especificado.
Por exemplo, se dois ativos e correspondidos folder1/file-1.csv
à regra {folder:string}/file-{NUM:int}.csv
, o conjunto de recursos será uma única entidade {folder}/file-{NUM}.csv
.folder2/file-2.csv
Caso especial: substituidores dinâmicos ao não agrupar em conjunto de recursos
Se Não agrupar como conjunto de recursos estiver habilitado para uma regra de padrão, o nome do substituto será um campo opcional. {:<replacerType>}
é sintaxe válida. Por exemplo, file-{:int}.csv
corresponderia com êxito file-1.csv
e file-2.csv
criaria dois ativos diferentes em vez de um conjunto de recursos.
Substituidores estáticos (colchetes duplos)
Colchetes duplos são usados como substituidores estáticos no nome qualificado de uma regra de padrão. Especifique um substituto estático no nome qualificado usando o formato {{<replacerName>:<replacerType>}}
. Se correspondido, cada conjunto de valores de substituição estáticos exclusivos criará agrupamentos de conjuntos de recursos diferentes.
Por exemplo, se dois ativos e folder2/file-2.csv
correspondidos à regra {{folder:string}}/file-{NUM:int}.csv
, dois conjuntos folder1/file-1.csv
de recursos serão criados folder1/file-{NUM}.csv
e folder2/file-{NUM}.csv
.
Substituidores estáticos podem ser usados para especificar o nome de exibição de um ativo correspondente a uma regra de padrão. O uso {{<replacerName>}}
no nome de exibição de uma regra usará o valor correspondente no nome do ativo.
Tipos de substituição disponíveis
Veja abaixo os tipos disponíveis que podem ser usados em substituidores estáticos e dinâmicos:
Tipo | Structure |
---|---|
string | Uma série de um ou mais caracteres Unicode, incluindo delimitadores como espaços. |
int | Uma série de 1 ou mais caracteres ASCII de 0 a 9, pode ser 0 prefixado (por exemplo, 0001). |
guid | Uma série de representação de cadeia de caracteres 32 ou 8-4-4-12 de uma UUID, conforme definido no RFC 4122. |
data | Uma série de 6 ou 8 0-9 caracteres ASCII com separadores opcionalmente: yyyymmdd, yyyy-mm-dd, yymmdd, yy-mm-dd, especificados no RFC 3339. |
hora | Uma série de 4 ou 6 caracteres ASCII 0-9 com separadores opcionalmente: HHmm, HH:mm, HHmmss, HH:mm:ss especificados no RFC 3339. |
Timestamp | Uma série de 12 ou 14 caracteres ASCII 0-9 com separadores opcionalmente: yyyy-mm-ddTHH:mm, yyyymmddhhmm, yyyy-mm-ddTHH:mm:ss, yyyymmddHHmmss especificado no RFC 3339. |
booliano | Pode conter 'true' ou 'false', caso insensível. |
number | Uma série de 0 ou mais 0-9 caracteres ASCII, pode ser 0 prefixado (por exemplo, 0001) seguido por opcionalmente um ponto '.' e uma série de 1 ou mais 0-9 caracteres ASCII, ele pode ser 0 postfixado (por exemplo, .100) |
Hex | Uma série de um ou mais caracteres ASCII do conjunto 0-1 e A-F, o valor pode ser 0 prefixado |
localidade | Uma cadeia de caracteres que corresponde à sintaxe especificada no RFC 5646. |
Ordem de regras de padrão de conjunto de recursos sendo aplicadas
Veja abaixo a ordem das operações para aplicar regras de padrão:
Escopos mais específicos terão prioridade se um ativo corresponder a duas regras. Por exemplo, as regras em um escopo
container/folder
serão aplicadas antes das regras no escopocontainer
.Ordem de regras dentro de um escopo específico. Isso pode ser editado no UX.
Se um ativo não corresponder a nenhuma regra especificada, a heurística padrão do conjunto de recursos será aplicada.
Exemplos
Exemplo 1
Extração de dados SAP em cargas completas e delta
Entradas
Arquivos:
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt
Regra de padrão
Escopo:https://myazureblob.blob.core.windows.net/bar/
Nome da exibição: 'Cliente Externo'
Nome qualificado:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt
Conjunto de Recursos: true
Saída
Um ativo de conjunto de recursos
Nome de exibição: Cliente Externo
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt
Exemplo 2
Dados IoT no formato avro
Entradas
Arquivos:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Regras de padrão
Escopo:https://myazureblob.blob.core.windows.net/bar/
Regra 1
Nome da exibição: 'machine-89'
Nome qualificado:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro
Conjunto de Recursos: true
Regra 2
Nome da exibição: 'machine-90'
Nome qualificado:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro
Conjunto de Recursos: true
Saídas
Dois conjuntos de recursos
Conjunto de Recursos 1
Nome de Exibição: computador-89
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Conjunto de Recursos 2
Nome de exibição: machine-90
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Exemplo 3
Dados IoT no formato avro
Entradas
Arquivos:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Regra de padrão
Escopo:https://myazureblob.blob.core.windows.net/bar/
Nome da exibição: 'Machine-{{machineid}}'
Nome qualificado:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro
Conjunto de Recursos: true
Saídas
Conjunto de Recursos 1
Nome de exibição: machine-89
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro
Conjunto de Recursos 2
Nome de exibição: machine-90
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro
Exemplo 4
Não agrupar em conjuntos de recursos
Entradas
Arquivos:
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Regra de padrão
Escopo:https://myazureblob.blob.core.windows.net/bar/
Nome da exibição:Machine-{{machineid}}
Nome qualificado:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro
Conjunto de Recursos: false
Saídas
Quatro ativos individuais
Ativo 1
Nome de exibição: machine-89
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
Ativo 2
Nome de exibição: machine-89
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
Ativo 3
Nome de exibição: machine-89
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
Ativo 4
Nome de exibição: machine-90
Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro
Próximas etapas
Comece registrando e verificando uma conta de armazenamento do Azure Data Lake Gen2.