Armazenamento de Dados

Artigo
01/21/2021

Nota

O serviço Time Series Insights será desativado em 7 de julho de 2024. Considere migrar ambientes existentes para soluções alternativas o mais rápido possível. Para obter mais informações sobre a substituição e a migração, visite nossa documentação .

Este artigo descreve o armazenamento de dados no Azure Time Series Insights Gen2. Ele abrange quentes e frias, disponibilidade de dados e práticas recomendadas.

Provisionamento

Ao criar um ambiente do Azure Time Series Insights Gen2, você tem as seguintes opções:

Armazenamento de dados frios:
- Crie um novo recurso de Armazenamento do Azure na assinatura e região escolhidas para seu ambiente.
- Anexar uma conta de Armazenamento do Azure pré-existente. Essa opção só está disponível implantando de um modelo de do Azure Resource Managere não está visível no portal do Azure.
Armazenamento de dados quentes:
- Um armazenamento morno é opcional e pode ser habilitado ou desabilitado durante ou após o provisionamento. Se você decidir habilitar o repositório morno em um momento posterior e já houver dados em seu repositório frio, examine esta seção abaixo para entender o comportamento esperado. O tempo de retenção de dados de armazenamento quente pode ser configurado por 7 a 31 dias, e isso também pode ser ajustado conforme necessário.

Quando um evento é ingerido, ele é indexado no repositório quente (se habilitado) e no repositório frio.

Visão geral do Armazenamento

Aviso

Como proprietário da conta de Armazenamento Blob do Azure onde os dados do repositório frio estão armazenados, você tem acesso total a todos os dados na conta. Esse acesso inclui permissões de gravação e exclusão. Não edite nem exclua os dados que o Azure Time Series Insights Gen2 grava porque isso pode causar perda de dados.

Disponibilidade de dados

O Azure Time Series Insights Gen2 particiona e indexa dados para o desempenho ideal da consulta. Os dados ficam disponíveis para consulta tanto do armazenamento quente (se habilitado) quanto do frio depois de indexados. A quantidade de ingestão de dados e a taxa de transferência por partição podem afetar a disponibilidade. Revisar as limitações de taxa de transferência do evento de origem e as práticas recomendadas para o melhor desempenho. Você também pode configurar um alerta de atraso para ser notificado se o ambiente estiver enfrentando problemas ao processar dados.

Importante

Você pode experimentar um período de até 60 segundos antes que os dados fiquem disponíveis por meio das APIs de Consulta de Série Temporal . Se você tiver uma latência significativa além de 60 segundos, envie um tíquete de suporte por meio do portal do Azure.

Você pode experimentar um período de até 5 minutos antes que os dados fiquem disponíveis ao acessar diretamente os arquivos Parquet fora do Azure Time Series Insights Gen2. Consulte a seção de formato de arquivo Parquet para obter mais informações.

Repositório quente

Os dados no seu repositório quente estão disponíveis apenas por meio das APIs de Consulta de Séries Temporais , do Azure Time Series Insights TSI Explorer ou do Conector do Power BI . As consultas de repositório quente são gratuitas e não há cota, mas há um limite de 30 solicitações simultâneas.

Comportamento de armazenamento em temperatura amena

Quando habilitado, todos os dados transmitidos para seu ambiente serão roteados para o repositório quente, independentemente do carimbo de data/hora do evento. Observe que o pipeline de ingestão de streaming foi criado para streaming quase em tempo real e a ingestão de eventos históricos não tem suporte.
O período de retenção é calculado com base em quando o evento foi indexado no armazenamento aquecido, não no carimbo de data/hora do evento. Isso significa que os dados não estão mais disponíveis no armazenamento ativo após o término do período de retenção, mesmo que a marca de tempo do evento seja para o futuro.
- Exemplo: um evento com previsões meteorológicas de 10 dias é ingerido e indexado em um contêiner de armazenamento quente configurado com um período de retenção de 7 dias. Após sete dias, a previsão não é mais acessível no armazenamento quente, mas pode ser consultada a partir do armazenamento frio.
Se você habilitar o repositório quente em um ambiente existente que já tem dados recentes indexados no armazenamento frio, observe que seu repositório quente não será preenchido novamente com esses dados.
Se você acabou de habilitar o armazenamento quente e estiver enfrentando problemas ao exibir seus dados recentes no Explorer, poderá desativar temporariamente as consultas de armazenamento quente:

Repositório frio

Esta seção descreve os detalhes do Armazenamento do Azure relevantes para o Azure Time Series Insights Gen2.

Para obter uma descrição completa do Armazenamento de Blobs do Azure, leia a introdução de blobs de armazenamento.

Sua conta de armazenamento frio

O Azure Time Series Insights Gen2 retém até duas cópias de cada evento em sua conta de Armazenamento do Azure. Uma cópia armazena eventos ordenados por tempo de ingestão, sempre permitindo o acesso a eventos em uma sequência ordenada por tempo. Com o tempo, o Azure Time Series Insights Gen2 também cria uma cópia reparticionada dos dados para otimizar consultas de alto desempenho.

Todos os seus dados são armazenados indefinidamente em sua conta de Armazenamento do Azure.

Aviso

Não restrinja o acesso à Internet pública à conta de armazenamento usada pelo Time Series Insights ou a conexão necessária será interrompida.

Escrever e editar blobs

Para garantir o desempenho da consulta e a disponibilidade de dados, não edite nem exclua os blobs que o Azure Time Series Insights Gen2 cria.

Acessando dados de armazenamento frio

Além de acessar seus dados do Azure Time Series Insights Explorer e APIs de Consulta de Série Temporal, você também pode querer acessar seus dados diretamente dos arquivos Parquet armazenados no armazenamento frio. Por exemplo, você pode ler, transformar e limpar dados em um notebook Jupyter e usá-los para treinar seu modelo do Azure Machine Learning no mesmo fluxo de trabalho do Spark.

Para acessar dados diretamente de sua conta de Armazenamento do Azure, você precisa de acesso de leitura à conta usada para armazenar seus dados do Azure Time Series Insights Gen2. Em seguida, você pode ler dados selecionados com base na hora de criação do arquivo Parquet localizado na pasta PT=Time descrita abaixo na seção formato de arquivo Parquet. Para obter mais informações sobre como habilitar o acesso de leitura à sua conta de armazenamento, consulte Gerenciar o acesso aos recursos da conta de armazenamento.

Exclusão de dados

Não exclua seus arquivos do Azure Time Series Insights Gen2. Gerenciar dados relacionados somente no Azure Time Series Insights Gen2.

Formato de arquivo Parquet e estrutura de pastas

Parquet é um formato de arquivo columnar de software livre projetado para armazenamento e desempenho eficientes. O Azure Time Series Insights Gen2 usa o Parquet para habilitar o desempenho de consultas em grande escala com base no ID da Série Temporal.

Para obter mais informações sobre o tipo de arquivo Parquet, leia a documentação Parquet.

O Azure Time Series Insights Gen2 armazena cópias de seus dados da seguinte maneira:

A pasta PT=Time é particionada pelo tempo de ingestão e armazena dados aproximadamente em ordem de chegada. Esses dados são preservados ao longo do tempo e você pode acessá-los diretamente de fora do Azure Time Series Insight Gen2, como em seus notebooks Spark. O timestamp <YYYYMMDDHHMMSSfff> corresponde ao tempo de entrada dos dados. O <MinEventTimeStamp> e <MaxEventTimeStamp> correspondem ao intervalo de carimbos de tempo dos eventos que estão incluídos no arquivo. O caminho e o nome do arquivo são formatados como:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
As pastas PT=Live e PT=Tsid contêm uma segunda cópia de seus dados, reparticionada para melhorar o desempenho das consultas de séries temporais em grande escala. Esses dados são otimizados ao longo do tempo e não são estáticos. Durante o reparticionamento, alguns eventos podem estar presentes em vários blobs, e os nomes desses blobs podem mudar. Essas pastas são usadas pelo Azure Time Series Insights Gen2 e não devem ser acessadas diretamente; você só deve usar PT=Time para essa finalidade.