Gerenciamento do ciclo de vida dos dados
O gerenciamento do ciclo de vida dos dados é a prática de usar determinadas políticas para gerenciar os dados com eficiência durante todo o tempo de existência deles no sistema. Essas políticas abrangentes de armazenamento e dados embasam seus processos de gerenciamento de dados. Como os motivadores e as metas de negócios ditam as políticas de gerenciamento de ciclo de vida dos dados, eles geralmente estão vinculados a uma estrutura geral de governança e gerenciamento de TI e de SLAs (contratos de nível de serviço).
Ao compreender o tipo e o uso pretendido de seus dados, é possível saber a evolução e o destino mais prováveis para eles. Você precisa entender como seus dados evoluem, determinar como crescem, monitorar as alterações de uso ao longo do tempo, decidir por quanto tempo devem existir e aderir a todas as regras e regulamentos que se aplicam a eles.
O gerenciamento do ciclo de vida dos dados atende a essas necessidades com uma combinação de processos, políticas e softwares que permitem que suas equipes usem a tecnologia apropriada para cada fase do ciclo de vida.
Ciclo de vida dos dados
Os produtos de dados podem ter ciclos de vida diferentes. Em um padrão de ciclo de vida típico, os dados recém-ingeridos são usados e acessados com frequência. Geralmente, a taxa de acesso a esses dados antigos diminui com o passar do tempo e ocorre uma queda drástica no uso deles.
No entanto, os ciclos de vida de dados podem ser diferentes desse padrão típico. Alguns dados podem permanecer não utilizados após a ingestão inicial ou ser raramente acessados depois de armazenados. Alguns produtos de dados podem expirar dias ou meses após a criação, enquanto outros são usados e modificados ativamente durante todo o tempo de vida.
A maioria dos lugares tem legislação que ditam o tempo exigido de armazenamento de dados, como dados pessoais e dados contábeis. Um país/região específico pode exigir que você retenha a documentação principal por cinco anos para dados como faturas recebidas e emitidas, saldos de livro-caixa, comprovantes bancários e contracheques. Também pode exigir que a documentação secundária seja mantida por três a cinco anos, o que inclui itens como cartas, contratos e anotações.
Gerenciamento de ciclos de vida de dados
Há duas maneiras de abordar o gerenciamento do ciclo de vida dos dados na análise em escala de nuvem.
- É possível usar os recursos de ciclo de vida de dados internos de cada serviço do Azure que contém dados persistentes, como o Azure Data Lake. Esse método é bom para mover dados para camadas de arquivos e de acesso esporádico, mas não garante que os dados sejam excluídos após um período especificado.
Importante
No momento, não há suporte para a camada de arquivos para contas de armazenamento com redundância de zona. Para saber mais, confira Redundância de dados.
- É possível integrar o ciclo de vida de dados em um processo de integração, o que dá aos proprietários de negócios de aplicativos a oportunidade de definir a política de ciclo de vida dos dados. Esse processo envolve um aplicativo personalizado para capturar as principais métricas em padrões de metadados para cada produto de dados. Parte desse método envolve mover dados de camadas de acesso frequente para camadas de acesso esporádico e de arquivos e garantir a exclusão dos dados após um período especificado.