Configurar o Google Cloud Storage em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia no pipeline de dados para copiar dados de e para o Google Cloud Storage.
Pré-requisitos
É necessária a seguinte configuração na sua conta do Google Cloud Storage:
Habilite a interoperabilidade para sua conta do Google Cloud Storage.
Defina o projeto padrão que contém os dados que você deseja copiar do bucket de destino do Google Cloud Storage.
Crie uma conta de serviço e defina os níveis corretos de permissões usando o Cloud IAM no GCP.
Gere as chaves de acesso para esta conta de serviço.
Permissões obrigatórias
Para copiar dados do Google Cloud Storage, certifique-se de que recebeu as seguintes permissões para operações de objetos: storage.objects.get
e storage.objects.list
.
Além disso, storage.buckets.list
a permissão é necessária para operações como testar a conexão e navegar a partir da raiz.
Para obter a lista completa de funções do Google Cloud Storage e permissões associadas, acesse Funções do IAM para armazenamento em nuvem no site do Google Cloud.
Formato suportado
O Google Cloud Storage é compatível com os seguintes formatos de ficheiro. Consulte cada artigo para obter as configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração suportada
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
- General (Geral)
- Source
- Destino
- Mapeamento
- Definições
Geral
Para Configuração da guia Geral , vá para Geral.
Origem
As propriedades a seguir são compatíveis com o Google Cloud Storage na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Tipo de armazenamento de dados: Selecione Externo.
Conexão: selecione uma conexão do Google Cloud Storage na lista de conexões. Se não houver conexão, crie uma nova conexão do Google Cloud Storage selecionando Novo.
Tipo de caminho de arquivo: você pode escolher Caminho de arquivo, Prefixo, Caminho de arquivo curinga ou Lista de arquivos como seu tipo de caminho de arquivo. A configuração de cada uma dessas configurações é:
Caminho do arquivo: Se você escolher esse tipo, os dados poderão ser copiados do bucket ou do caminho da pasta/arquivo especificado no Caminho do arquivo.
Prefixo: Se você escolher esse tipo, especifique o Bucket e o Prefixo.
Bucket: especifique o nome do bucket do Google Cloud Storage. É obrigatório.
Prefixo: prefixo do nome da chave do Google Cloud Storage sob o bucket especificado para filtrar os arquivos de origem do Google Cloud Storage. As chaves do Google Cloud Storage cujos nomes começam com
given_bucket/this_prefix
são selecionadas. Ele utiliza o filtro do lado do serviço do Google Cloud Storage, que oferece melhor desempenho do que um filtro curinga.
Caminho do arquivo curinga: se você escolher esse tipo, especifique os caminhos Bucket e Wildcard.
Bucket: especifique o nome do bucket do Google Cloud Storage. É obrigatório.
Caminhos curinga: especifique o caminho da pasta ou do arquivo com caracteres curinga sob o bucket fornecido para filtrar as pastas ou arquivos de origem.
Os curingas permitidos são:
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
para escapar se o nome da pasta tiver curinga ou esse caractere de escape dentro. Para obter mais exemplos, vá para Exemplos de filtro de pasta e arquivo.Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga sob o bucket fornecido para filtrar as pastas de origem.
Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga sob o bucket e o caminho da pasta fornecidos (ou caminho da pasta curinga) para filtrar os arquivos de origem.
Lista de arquivos: Se você escolher esse tipo, especifique o caminho da pasta e a lista Caminho para o arquivo para indicar a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho configurado. Para obter mais exemplos, vá para Exemplos de lista de arquivos.
- Caminho da pasta: especifique o caminho para a pasta em determinado bucket. É obrigatório.
- Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Recursivamente: Indica se os dados são lidos recursivamente a partir das subpastas ou apenas a partir da pasta especificada. Observe que quando essa caixa de seleção é marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino.
Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação especificadas. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início (UTC): Os ficheiros são selecionados se a hora da última modificação for igual ou superior à hora configurada.
- Hora de término (UTC): Os arquivos são selecionados se o tempo da última modificação for menor do que o tempo configurado.
Quando a hora de início (UTC) tem o valor datetime, mas a hora de término (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é maior ou igual ao valor datetime serão selecionados. Quando a hora de término (UTC) tem o valor datetime, mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é menor que o valor datetime serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.
Habilitar descoberta de partição: especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele é desmarcado por padrão e não é suportado quando você usa o formato de arquivo binário.
Caminho da raiz da partição: Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
Se não for especificado, por padrão,
- Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
- Quando você usa o filtro de pasta curinga, o caminho da raiz da partição é o subcaminho antes do primeiro curinga.
- Quando você usa prefixo, o caminho raiz da partição é o subcaminho antes do último "/".
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27
:- Se você especificar o caminho da raiz da partição como
root/folder/year=2020
, a atividade de cópia gerará mais duas colunas mês e dia com o valor "08" e "27", respectivamente, além das colunas dentro dos arquivos. - Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.
Conexão simultânea máxima: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.
Destino
As propriedades a seguir são compatíveis com o Google Cloud Storage na guia Destino de uma atividade de cópia.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: Selecione Externo.
- Conexão: selecione uma conexão do Google Cloud Storage na lista de conexões. Se não houver conexão, crie uma nova conexão do Google Cloud Storage selecionando Novo.
- Caminho do arquivo: Os dados podem ser copiados para o bucket determinado ou para o bucket e o caminho da pasta especificados.
- Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher um comportamento na lista suspensa.
- Nivelar a hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
- Mesclar arquivos: mescla todos os arquivos da pasta de origem em um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
- Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
Máximo de conexões simultâneas: esta propriedade indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Mapeamento
Para a configuração da guia Mapeamento , consulte Configurar seus mapeamentos na guia mapeamento. Se você escolher binário como seu formato de arquivo, o mapeamento não será suportado.
Definições
Para a configuração da guia Configurações , vá para Configurar suas outras configurações na guia configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre a atividade de cópia no Google Cloud Storage.
Fonte da informação
Nome | Descrição | valor | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de origem. | <a sua ligação ao Google Cloud Storage> | Sim | ligação |
Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Prefixo • Caminho do arquivo curinga • Lista de ficheiros |
Sim | / |
Para o caminho do arquivo | ||||
Balde | O nome do bucket do Google Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Nome do ficheiro | O nome do arquivo sob o bucket especificado e o caminho da pasta. | <o seu nome de ficheiro> | Não | fileName |
Para prefixo | ||||
Balde | O nome do bucket do Google Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Prefixo | O prefixo do nome da chave do Google Cloud Storage sob o bucket fornecido para filtrar os arquivos de origem do Google Cloud Storage. | <o seu prefixo> | Não | prefixo |
Para o caminho do arquivo curinga | ||||
Balde | O nome do bucket do Google Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Caminho da pasta curinga | O caminho da pasta com caracteres curinga sob o bucket especificado para filtrar as pastas de origem. | <o caminho da pasta com caracteres curinga> | Não | curingFolderPath |
Nome do arquivo curinga | O nome do arquivo com caracteres curinga sob o bucket especificado e o caminho da pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem. | <seu nome de arquivo com caracteres curinga> | Sim | curingaFileName |
Para Lista de arquivos | ||||
Balde | O nome do bucket do Google Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Caminho para a lista de arquivos | Indica para copiar um determinado conjunto de arquivos. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. | < caminho da lista de arquivos > | Não | fileListPath |
Formato do ficheiro | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim | / |
Recursivamente | Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Observe que quando essa caixa de seleção é marcada e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. | selecionado (padrão) ou desmarcado | Não | recursiva |
Filtrar por última modificação | Os ficheiros com a hora da última modificação no intervalo [Hora de início, Hora de fim) serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ . Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar a descoberta de partições | Indica se as partições devem ser analisadas a partir do caminho do arquivo e adicionadas como colunas de origem adicionais. | selecionado ou desmarcado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho da raiz da partição | Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados. | < o caminho raiz da partição > | Não | partitionRootPath |
Conexão simultânea máxima | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Colunas adicionais | Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. | • Nome • Valor |
Não | adicionaisColunas: • nome • valor |
Informações sobre o destino
Nome | Descrição | valor | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de destino. | <a sua ligação ao Google Cloud Storage> | Sim | ligação |
Caminho do ficheiro | O caminho da pasta/arquivo para o arquivo de destino. | < caminho da pasta/arquivo> | Sim | / |
Balde | O nome do bucket do Google Cloud Storage. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Nome do ficheiro | O nome do arquivo sob o bucket especificado e o caminho da pasta. | <o seu nome de ficheiro> | Não | fileName |
Comportamento de cópia | Define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. | • Achatar a hierarquia • Mesclar arquivos • Preservar a hierarquia |
Não | copyComportamento: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |