Partilhar via


Principais considerações para o Armazenamento do Azure Data Lake

O Armazenamento do Azure oferece uma variedade de opções de armazenamento para os seus dados. Este artigo fornece considerações para ajudá-lo a escolher a camada de acesso apropriada para que você possa equilibrar custo e desempenho. Ele também descreve o gerenciamento do ciclo de vida do armazenamento, incluindo recursos e práticas recomendadas para ajudá-lo a usar os níveis de acesso de forma eficaz.

Gestão do ciclo de vida

O Armazenamento do Azure oferece várias camadas de acesso que você pode usar para armazenar dados de objeto de blob. Escolha a camada que melhor se adapta à sua carga de trabalho para otimizar os custos.

  • Use uma camada quente para armazenar dados acessados com frequência.

  • Use um de camada legal para armazenar dados acessados com pouca frequência. Essa camada armazena dados por pelo menos 30 dias.

  • Use uma camada fria para armazenar dados que são acessados ou modificados com pouca frequência. Essa camada armazena dados por pelo menos 90 dias. A camada de acesso infrequente tem custos de armazenamento inferiores e custos de acesso superiores em comparação com a camada de acesso esporádico.

  • Use uma camada de arquivamento para armazenar dados raramente acessados. Essa camada armazena dados por pelo menos 180 dias. O acesso a esses dados pode ter requisitos de latência flexíveis, o que significa que pode levar horas para recuperar dados.

Importante

Os níveis de acesso online (quente, morno e frio) não apresentam compromissos em relação à confiabilidade, segurança, excelência operacional ou eficiência de desempenho. Portanto, você deve basear sua decisão no custo de cada blob. Considere o tamanho dos dados de acesso à carga de trabalho, as interações operacionais e o tempo antes de o blob ser excluído. Selecione a camada apropriada para cada blob com base nesses fatores. Para obter mais informações, consulte Planejar e gerenciar custos para o Armazenamento de Blobs do Azure .

Considere os seguintes fatores ao usar camadas de acesso:

  • Defina apenas as camadas de acesso quente e frio no nível da conta. O nível de conta não suporta a camada de acesso ao arquivamento.

  • Configure as camadas quente, fria e de arquivamento ao nível de blob durante o upload ou após o upload.

  • Os dados nos níveis frio e frio têm uma disponibilidade um pouco menor, mas esses níveis oferecem recursos semelhantes aos do nível quente, como alta durabilidade, latência de recuperação e taxa de transferência. Para dados nos níveis fresco ou frio, menor disponibilidade e custos de acesso mais altos são compensações aceitáveis em troca de custos de armazenamento reduzidos em comparação com o nível quente.

  • O armazenamento de arquivo armazena dados off-line e oferece os menores custos de armazenamento. Mas também incorre nos mais altos custos de reidratação de dados e acesso.

Para obter mais informações, consulte Camadas de acesso para dados de blob.

Importante

Para análises em escala de nuvem, use um microsserviço personalizado para implementar gerenciamento do ciclo de vida. Considere cuidadosamente o impacto de mover dados detetáveis pelo usuário para o armazenamento refrigerado. Mova seções do seu data lake para a camada fria apenas para cargas de trabalho bem definidas.

Conectividade do data lake

Cada data lake deve usar pontos de extremidade privados que você integra à rede virtual da sua zona de aterrissagem de dados. Para fornecer acesso entre zonas de aterrissagem, conecte suas zonas de aterrissagem de dados por meio de emparelhamento de rede virtual. Essa conexão fornece uma solução ideal do ponto de vista de custo e controle de acesso.

Para obter mais informações, consulte Pontos de extremidade privados e Zona de aterrissagem de gerenciamento de dados para zona de aterrissagem de dados.

Importante

Uma zona de aterragem de dados pode aceder a dados numa zona de aterragem de dados diferente através de emparelhamento de rede virtual. Os endpoints privados estabelecem a ligação associada a cada conta do data lake. Recomendamos que desative todo o acesso público aos seus lagos e utilize terminais privados. Sua equipe de operações de plataforma deve controlar a conectividade de rede em suas zonas de aterrissagem de dados.

Eliminação recuperável para contentores

A exclusão suave para contêineres ajuda a proteger seus dados contra exclusão acidental ou maliciosa. Se você habilitar a exclusão suave de contêiner para sua conta de armazenamento, o Armazenamento reterá contêineres excluídos e seu conteúdo por um período de tempo especificado. Durante o período de retenção de dados, você pode restaurar contêineres excluídos anteriormente. Essa ação também restaura blobs que estavam nesse contêiner quando ele foi excluído.

Habilite os seguintes recursos de proteção de dados para aprimorar a proteção de dados de blob de ponta a ponta:

Aviso

Depois de excluir uma conta de armazenamento, não é possível desfazer a exclusão. A eliminação suave de contentores não protege contra a eliminação de uma conta de armazenamento, apenas contra a eliminação de contentores dentro de uma conta. Para proteger uma conta de armazenamento contra exclusão, configure um bloqueio no recurso da conta de armazenamento. Para obter mais informações, consulte Bloquear recursos para evitar alterações inesperadas.

Monitorização

Na zona de aterragem de dados, envie todo o monitoramento para a sua assinatura de gestão da zona de aterragem do Azure para análise.

Para obter mais informações, consulte Monitorizar recursos do Azure com o Azure Monitor e Monitorizar Armazenamento Blob.

As entradas de log são criadas apenas para solicitações no ponto de extremidade do serviço. Os seguintes tipos de solicitações autenticadas são registrados:

  • Pedidos com êxito
  • Solicitações com falha, incluindo tempos limites, limitação, problemas de rede, problemas de autorização e outros erros
  • Solicitações que usam uma assinatura de acesso compartilhado (SAS) ou OAuth, incluindo solicitações com falha e bem-sucedidas
  • Solicitações para dados de análise, como dados de log clássicos no $logs contêiner e dados de métrica de classe nas $metric tabelas

As solicitações feitas pelo próprio serviço de armazenamento, como criação ou exclusão de log, não são registradas. Os seguintes tipos de solicitações anônimas são registrados:

  • Pedidos com êxito
  • Erros de servidor
  • Erros de tempo limite para o cliente e o servidor
  • Solicitações HTTP GET com falha que têm o código de erro 304 (Not Modified)

Outras solicitações anônimas com falha não são registradas.

Importante

Defina sua política de monitoramento padrão para auditar o armazenamento e enviar logs para sua assinatura de gerenciamento em escala empresarial.

Segurança da zona do data lake

Recomendamos os seguintes padrões de segurança para zonas de data lake:

  • O uso bruto permite o acesso aos dados usando apenas nomes de entidade de segurança (SPNs). Recomendamos que você use identidades gerenciadas.

  • O uso enriquecido permite o acesso aos dados usando apenas SPNs. Recomendamos que você use identidades gerenciadas.

  • de uso com curadoria permite o acesso aos dados usando SPNs e nomes principais de usuário (UPNs).

Para obter mais informações, consulte modelo de controle de acesso no Data Lake Storage.

Próximo passo