Compartilhar via


Considerações importantes para o Azure Data Lake Storage

Saiba mais sobre as principais considerações de armazenamento para data lakes do Azure.

Gerenciamento do ciclo de vida

O Armazenamento do Azure oferece diferentes camadas de acesso, a fim de possibilitar o armazenamento de dados de objetos de blob da maneira mais econômica possível. As camadas de acesso disponíveis incluem:

  • Frequente: otimizado para armazenar dados acessados com frequência.
  • Esporádico: otimizado para armazenar dados que são acessados ​​com pouca frequência. Os dados são armazenados por pelo menos 30 dias.
  • Camada de acesso Esporádico: – otimizada para armazenar dados acessados ou modificados com pouca frequência. Os dados são armazenados por pelo menos 90 dias. A camada de acesso frio tem custos de armazenamento mais baixos e custos de acesso mais altos em comparação com a camada de acesso esporádico.
  • Arquivo: otimizado para armazenar dados raramente acessados. Os dados são armazenados por pelo menos 180 dias com requisitos de latência flexíveis, na ordem de horas.

Importante

Não há compensações de confiabilidade, segurança, excelência operacional ou eficiência de desempenho entre as várias camadas de acesso online, o que faz com que a escolha de um nível online seja uma decisão financeira, por blob, com base no tamanho dos dados de acesso à carga de trabalho, interações operacionais e tempo antes que o blob seja excluído. Selecione a camada correta, por blob, com base em um cálculo dos fatores anteriores. Para obter mais informações, consulte Planejar e gerenciar custos do Armazenamento de Blobs do Azure.

Considere as seguintes informações ao usar camadas de acesso:

  • Apenas as camadas de acesso frequente e esporádico podem ser definidas no nível da conta. A camada de acesso aos arquivos não está disponível no nível da conta.

  • As camadas de acesso frequente, esporádico e aos arquivos podem ser definidas no nível do blob durante ou após o upload.

  • Os dados na camada de acesso Esporádico têm disponibilidade um pouco inferior, mas oferece têm alta durabilidade, latência de recuperação e características de taxa de transferência semelhantes aos dados da camada de acesso Frequente. Para dados na camada de acesso Esporádico, uma disponibilidade ligeiramente menor e custos de acesso mais altos podem ser compensações aceitáveis para reduzir os custos gerais de armazenamento, em comparação com a camada de acesso Frequente.

  • O armazenamento de arquivos armazena dados offline e oferece os custos de armazenamento mais baixos. No entanto, ele também tem os custos mais altos de reidratação de dados e acesso.

Para saber mais, confira Camadas de acesso para dados de blob.

Cuidado

Para análises em escala de nuvem, recomendamos implementar o gerenciamento de ciclo de vida usando um microsserviço personalizado e considerar cuidadosamente o impacto da migração dos dados detectáveis ​​do usuário para o armazenamento esporádico.

Você só deve mover seções do data lake para a camada de acesso esporádico no caso de cargas de trabalho familiares.

Conectividade de data lakes

Cada um dos data lakes deve usar pontos de extremidade privados injetados na rede virtual da zona de destino de dados. Para fornecer acesso entre zonas de destino, conecte suas zonas de destino de dados por meio do emparelhamento de rede virtual. Essa conexão fornece a solução ideal das perspectivas de custo e de controle de acesso.

Para saber mais, confira Pontos de extremidade privados e Zona de destino de gerenciamento de dados para zona de destino de dados.

Importante

Os dados de uma zona de destino de dados podem ser acessados de outra zona de destino de dados pelo emparelhamento de rede virtual entre elas. Isso é feito usando os pontos de extremidade privados associados a cada conta de data lake. Recomenda-se desativar todo o acesso público aos data lakes e usar pontos de extremidade privados. Sua equipe de operações de plataforma deve controlar a conectividade de rede entre as zonas de destino de dados.

Exclusão reversível para contêineres

A exclusão temporária de contêineres protege seus dados contra exclusão acidental ou mal-intencionada. Se você habilitar a exclusão temporária de contêiner para sua conta de armazenamento, os contêineres excluídos e os conteúdos deles serão retidos no Armazenamento do Azure pelo período de tempo escolhido. Durante o período de retenção de dados, é possível restaurar os contêineres que já foram excluídos. A restauração de um contêiner restaura todos os blobs que estavam nele quando ele foi excluído.

Habilite os seguintes recursos de proteção de dados para obter proteção de dados de blob de ponta a ponta:

Aviso

A exclusão de uma conta de armazenamento não pode ser desfeita. A exclusão temporária de contêineres não protege contra a exclusão da conta de armazenamento, somente contra a exclusão dos contêineres que estão nela. Para proteger uma conta de armazenamento contra a exclusão, configure um bloqueio no recurso de conta de armazenamento. Para saber mais sobre como bloquear recursos do Azure Resource Manager, confira Bloquear recursos para impedir alterações inesperadas.

Monitoramento

Em uma zona de destino de dados, todo o monitoramento deve ser enviado para a sua assinatura de gerenciamento da Zona de Destino do Azure para análise.

Para saber mais sobre os dados de monitoramento usados pelo Armazenamento do Azure, confira Monitoramento dos recursos do Azure com o Azure Monitor. Para saber mais sobre os logs e as métricas criados pelo Armazenamento do Azure, confira Monitoramento do Armazenamento de Blobs do Azure.

As entradas de log são criadas somente quando há solicitações feitas no ponto de extremidade de serviço. Os tipos de solicitações autenticadas registradas são:

  • Solicitações bem-sucedidas
  • Solicitações com falha, incluindo tempo limite, limitação, rede, autorização e outros erros
  • Solicitações que usam uma SAS (Assinatura de Acesso Compartilhado) ou OAuth, incluindo solicitações bem-sucedidas e com falha
  • Solicitações de dados de análise, como dados de log clássicos no contêiner $logs e dados de métrica de classe nas tabelas $metric

As solicitações feitas pelo próprio serviço de armazenamento, como a criação ou a exclusão de log, não estão registradas. Os tipos de solicitações anônimas registradas são:

  • Solicitações bem-sucedidas
  • Erros do servidor
  • Erros de tempo limite para o cliente e o servidor
  • Falha nas solicitações HTTP GET com o código de erro 304 (Not Modified)

Nenhuma outra solicitação anônima com falha é registrada em log.

Importante

Defina sua política de monitoramento padrão para auditar o armazenamento e enviar logs para a assinatura de gerenciamento de escala empresarial.

Os seguintes usos são os padrões de segurança recomendados para cada uma das zonas do data lake:

  • O uso bruto permite acesso aos dados somente usando SPNs - de preferência usando identidades gerenciadas.
  • O uso enriquecido permite acesso aos dados somente usando SPNs - de preferência usando identidades gerenciadas.
  • O uso coletado permite o acesso a SPNs (nomes de entidade de segurança) e UPNs (nomes UPN).

Para saber mais, confira Modelo de controle de acesso no Azure Data Lake Storage.

Próximas etapas