Configurar o Amazon S3 Compatible em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados do Amazon S3 Compatible.
Permissões obrigatórias
Para copiar dados do Amazon S3 Compatible, verifique se você recebeu as seguintes permissões para operações de objetos compatíveis com o Amazon S3: s3:GetObject
e s3:GetObjectVersion
.
Além disso, s3:ListAllMyBuckets
são necessárias permissões para s3:ListBucket
/s3:GetBucketLocation
operações como testar a conexão e navegar a partir da raiz.
Para obter a lista completa de permissões compatíveis com o Amazon S3, vá para Especificação de permissões em uma política no site da AWS.
Formato suportado
O Amazon S3 Compatible é compatível com os seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração suportada
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
- General (Geral)
- Source
- Destino
- Mapeamento
- Administração
Geral
Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.
Source
As propriedades a seguir são compatíveis com o Amazon S3 na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Tipo de armazenamento de dados: Selecione Externo.
Conexão: selecione uma conexão compatível com o Amazon S3 na lista de conexões. Se não houver conexão, crie uma nova conexão compatível com o Amazon S3 selecionando Novo.
Tipo de conexão: selecione Compatível com Amazon S3 para seu tipo de conexão.
Tipo de caminho de arquivo: você pode escolher Caminho de arquivo, Prefixo, Caminho de arquivo curinga ou Lista de arquivos como seu tipo de caminho de arquivo. A configuração para cada configuração é:
Caminho do arquivo: Se você escolher esse tipo, os dados poderão ser copiados do bucket determinado ou do bucket e do caminho da pasta especificados.
Prefixo: Se você escolher esse tipo, especifique o Bucket e o Prefixo.
Bucket: especifique o nome do bucket de armazenamento compatível com o S3. É obrigatório.
Prefixo: especifique o prefixo para o nome da chave de armazenamento compatível com o S3 sob o bucket fornecido para filtrar os arquivos de armazenamento compatíveis com o S3 de origem. As chaves de armazenamento compatíveis com o S3 cujos nomes começam com
bucket/this_prefix
são selecionadas. Ele utiliza o filtro do lado do serviço do S3 Compatible Storage, que oferece melhor desempenho do que um filtro curinga.Quando você usa prefixo e opta por copiar para o destino baseado em arquivo com hierarquia de preservação, observe que o subcaminho após o último "/" no prefixo será preservado. Por exemplo, você tem origem
bucket/folder/subfolder/file.txt
e configura o prefixo comofolder/sub
, então o caminho do arquivo preservado ésubfolder/file.txt
.
Caminho do arquivo curinga: se você escolher esse tipo, especifique os caminhos Bucket e Wildcard.
Bucket: especifique o nome do bucket de armazenamento compatível com o S3. É obrigatório.
Caminhos curinga: especifique o caminho da pasta ou do arquivo com caracteres curinga sob o bucket fornecido para filtrar as pastas ou arquivos de origem.
Os curingas permitidos são:
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
para escapar se o nome da pasta tiver curinga ou esse caractere de escape dentro. Veja mais exemplos em Exemplos de filtros de pastas e ficheiros. Caminho da pasta curinga: o caminho da pasta com caracteres curinga sob o bucket fornecido para filtrar as pastas de origem.Nome do arquivo curinga: o nome do arquivo com caracteres curinga sob o bucket e o caminho da pasta fornecidos (ou caminho da pasta curinga) para filtrar os arquivos de origem.
Lista de arquivos: Se você escolher esse tipo, especifique o caminho da pasta e a lista Caminho para o arquivo para indicar a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para o caminho configurado. Para obter mais exemplos, vá para Exemplos de lista de arquivos.
- Caminho da pasta: especifique o caminho para a pasta em determinado bucket. É obrigatório.
- Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Recursivamente: especifique se os dados são lidos recursivamente a partir das subpastas ou apenas da pasta especificada. Quando Recursivamente é selecionado e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade é selecionada por padrão e não se aplica quando você configura o caminho para a lista de arquivos.
Em Avançado, você pode especificar os seguintes campos:
Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação especificadas. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início (UTC): Os ficheiros são selecionados se a hora da última modificação for igual ou superior à hora configurada.
- Hora de término (UTC): Os arquivos são selecionados se o tempo da última modificação for menor do que o tempo configurado.
Quando a hora de início (UTC) tem o valor datetime, mas a hora de término (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é maior ou igual ao valor datetime serão selecionados. Quando a hora de término (UTC) tem o valor datetime, mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é menor que o valor datetime serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.
Habilitar descoberta de partição: especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele é desmarcado por padrão e não é suportado quando você usa o formato de arquivo binário.
Caminho da raiz da partição: Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
Se não for especificado, por padrão,
- Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
- Quando você usa o filtro de pasta curinga, o caminho da raiz da partição é o subcaminho antes do primeiro curinga.
- Quando você usa prefixo, o caminho raiz da partição é o subcaminho antes do último "/".
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27
:- Se você especificar o caminho da raiz da partição como
root/folder/year=2020
, a atividade de cópia gerará mais duas colunas mês e dia com o valor "08" e "27", respectivamente, além das colunas dentro dos arquivos. - Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.
Conexão simultânea máxima: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.
Destino
As propriedades a seguir são compatíveis com o Amazon S3 na guia Destino de uma atividade de cópia.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: Selecione Externo.
- Conexão: selecione uma conexão compatível com o Amazon S3 na lista de conexões. Se não houver conexão, crie uma nova conexão compatível com o Amazon S3 selecionando Novo.
- Tipo de conexão: selecione Compatível com Amazon S3 para seu tipo de conexão.
- Caminho do arquivo: Os dados podem ser copiados para o bucket determinado ou para o bucket e o caminho da pasta especificados.
- Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher um comportamento na lista suspensa.
- Nivelar a hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
- Mesclar arquivos: mescla todos os arquivos da pasta de origem em um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
- Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
Máximo de conexões simultâneas: esta propriedade indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Mapeamento
Para Configuração da guia Mapeamento, vá para Configurar seus mapeamentos na guia Mapeamento. Se você escolher binário como seu formato de arquivo, o mapeamento não será suportado.
Definições
Para a configuração da guia Configurações , vá para Configurar suas outras configurações na guia configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre a atividade de cópia no Amazon S3 Compatible.
Fonte da informação
Nome | Descrição | valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de origem. | <sua conexão compatível com o Amazon S3> | Sim | ligação |
Tipo de ligação | Selecione um tipo para sua conexão. | Compatível com Amazon S3 | Sim | / |
Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Prefixo • Caminho do arquivo curinga • Lista de ficheiros |
Sim | / |
Para o caminho do arquivo | ||||
Balde | O nome do bucket de armazenamento compatível com o S3. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Nome do ficheiro | O nome do arquivo sob o bucket especificado e o caminho da pasta. | <o seu nome de ficheiro> | Não | fileName |
Para prefixo | ||||
Balde | O nome do bucket de armazenamento compatível com o S3. | <o nome do bucket> | Sim | bucketName |
Prefixo | O prefixo para o nome da chave de armazenamento compatível com o S3 sob o bucket fornecido para filtrar os arquivos de armazenamento compatíveis com o S3 de origem. | <o seu prefixo> | Não | prefixo |
Para o caminho do arquivo curinga | ||||
Balde | O nome do bucket de armazenamento compatível com o S3. | <o nome do bucket> | Sim | bucketName |
Caminho da pasta curinga | O caminho da pasta com caracteres curinga sob o bucket especificado para filtrar as pastas de origem. | <o caminho da pasta com caracteres curinga> | Não | curingFolderPath |
Nome do arquivo curinga | O nome do arquivo com caracteres curinga sob o bucket especificado e o caminho da pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem. | <seu nome de arquivo com caracteres curinga> | Sim | curingaFileName |
Para Lista de arquivos | ||||
Balde | O nome do bucket de armazenamento compatível com o S3. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Caminho para a lista de arquivos | Indica para copiar um determinado conjunto de arquivos. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. | < caminho da lista de arquivos > | Não | fileListPath |
Formato do ficheiro | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim | / |
Recursivamente | Indica se os dados são lidos recursivamente das subpastas ou somente da pasta especificada. Observe que quando Recursivamente é selecionado e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade não se aplica quando você configura o caminho para a lista de arquivos. | selecionado (padrão) ou desmarcado | Não | recursiva |
Filtrar por última modificação | Os ficheiros com a hora da última modificação no intervalo [Hora de início, Hora de fim) serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ . Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar a descoberta de partições | Indica se as partições devem ser analisadas a partir do caminho do arquivo e adicionadas como colunas de origem adicionais. | selecionado ou desmarcado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho da raiz da partição | Quando a descoberta de partições estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados. | < o caminho raiz da partição > | Não | partitionRootPath |
Conexão simultânea máxima | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Colunas adicionais | Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. | • Nome • Valor |
Não | adicionaisColunas: • nome • valor |
Informações sobre o destino
Nome | Descrição | valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de destino. | <sua conexão compatível com o Amazon S3> | Sim | ligação |
Tipo de ligação | Selecione um tipo para sua conexão. | Compatível com Amazon S3 | Sim | / |
Caminho do ficheiro | O caminho da pasta/arquivo para o arquivo de destino. | <caminho da pasta/arquivo> | Sim | / |
Balde | O nome do bucket de armazenamento compatível com o S3. | <o nome do bucket> | Sim | bucketName |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Nome do ficheiro | O nome do arquivo sob o bucket especificado e o caminho da pasta. | <o seu nome de ficheiro> | Não | fileName |
Comportamento de cópia | Define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. | • Achatar a hierarquia • Mesclar arquivos • Preservar a hierarquia |
Não | copyComportamento: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |