Armazenamento de Dados
Nota
O serviço Time Series Insights será desativado em 7 de julho de 2024. Considere migrar ambientes existentes para soluções alternativas o mais rápido possível. Para obter mais informações sobre a substituição e a migração, visite nossa documentação .
Este artigo descreve o armazenamento de dados no Azure Time Series Insights Gen2. Ele abrange quentes e frias, disponibilidade de dados e práticas recomendadas.
Provisionamento
Ao criar um ambiente do Azure Time Series Insights Gen2, você tem as seguintes opções:
- Armazenamento de dados frios:
- Crie um novo recurso de Armazenamento do Azure na assinatura e região escolhidas para seu ambiente.
- Anexar uma conta de Armazenamento do Azure pré-existente. Essa opção só está disponível implantando de um modelo de do Azure Resource Managere não está visível no portal do Azure.
- Armazenamento de dados quentes:
- Um armazenamento morno é opcional e pode ser habilitado ou desabilitado durante ou após o provisionamento. Se você decidir habilitar o repositório morno em um momento posterior e já houver dados em seu repositório frio, examine esta seção abaixo para entender o comportamento esperado. O tempo de retenção de dados de armazenamento quente pode ser configurado por 7 a 31 dias, e isso também pode ser ajustado conforme necessário.
Quando um evento é ingerido, ele é indexado no repositório quente (se habilitado) e no repositório frio.
Aviso
Como proprietário da conta de Armazenamento Blob do Azure onde os dados do repositório frio estão armazenados, você tem acesso total a todos os dados na conta. Esse acesso inclui permissões de gravação e exclusão. Não edite nem exclua os dados que o Azure Time Series Insights Gen2 grava porque isso pode causar perda de dados.
Disponibilidade de dados
O Azure Time Series Insights Gen2 particiona e indexa dados para o desempenho ideal da consulta. Os dados ficam disponíveis para consulta tanto do armazenamento quente (se habilitado) quanto do frio depois de indexados. A quantidade de ingestão de dados e a taxa de transferência por partição podem afetar a disponibilidade. Revisar as limitações de taxa de transferência do evento de origem e as práticas recomendadas para o melhor desempenho. Você também pode configurar um alerta de atraso para ser notificado se o ambiente estiver enfrentando problemas ao processar dados.
Importante
Você pode experimentar um período de até 60 segundos antes que os dados fiquem disponíveis por meio das APIs de Consulta de Série Temporal . Se você tiver uma latência significativa além de 60 segundos, envie um tíquete de suporte por meio do portal do Azure.
Você pode experimentar um período de até 5 minutos antes que os dados fiquem disponíveis ao acessar diretamente os arquivos Parquet fora do Azure Time Series Insights Gen2. Consulte a seção de formato de arquivo Parquet para obter mais informações.
Repositório quente
Os dados no seu repositório quente estão disponíveis apenas por meio das APIs de Consulta de Séries Temporais , do Azure Time Series Insights TSI Explorer ou do Conector do Power BI . As consultas de repositório quente são gratuitas e não há cota, mas há um limite de 30 solicitações simultâneas.
Comportamento de armazenamento em temperatura amena
Quando habilitado, todos os dados transmitidos para seu ambiente serão roteados para o repositório quente, independentemente do carimbo de data/hora do evento. Observe que o pipeline de ingestão de streaming foi criado para streaming quase em tempo real e a ingestão de eventos históricos não tem suporte.
O período de retenção é calculado com base em quando o evento foi indexado no armazenamento aquecido, não no carimbo de data/hora do evento. Isso significa que os dados não estão mais disponíveis no armazenamento ativo após o término do período de retenção, mesmo que a marca de tempo do evento seja para o futuro.
- Exemplo: um evento com previsões meteorológicas de 10 dias é ingerido e indexado em um contêiner de armazenamento quente configurado com um período de retenção de 7 dias. Após sete dias, a previsão não é mais acessível no armazenamento quente, mas pode ser consultada a partir do armazenamento frio.
Se você habilitar o repositório quente em um ambiente existente que já tem dados recentes indexados no armazenamento frio, observe que seu repositório quente não será preenchido novamente com esses dados.
Se você acabou de habilitar o armazenamento quente e estiver enfrentando problemas ao exibir seus dados recentes no Explorer, poderá desativar temporariamente as consultas de armazenamento quente:
Repositório frio
Esta seção descreve os detalhes do Armazenamento do Azure relevantes para o Azure Time Series Insights Gen2.
Para obter uma descrição completa do Armazenamento de Blobs do Azure, leia a introdução de blobs de armazenamento.
Sua conta de armazenamento frio
O Azure Time Series Insights Gen2 retém até duas cópias de cada evento em sua conta de Armazenamento do Azure. Uma cópia armazena eventos ordenados por tempo de ingestão, sempre permitindo o acesso a eventos em uma sequência ordenada por tempo. Com o tempo, o Azure Time Series Insights Gen2 também cria uma cópia reparticionada dos dados para otimizar consultas de alto desempenho.
Todos os seus dados são armazenados indefinidamente em sua conta de Armazenamento do Azure.
Aviso
Não restrinja o acesso à Internet pública à conta de armazenamento usada pelo Time Series Insights ou a conexão necessária será interrompida.
Escrever e editar blobs
Para garantir o desempenho da consulta e a disponibilidade de dados, não edite nem exclua os blobs que o Azure Time Series Insights Gen2 cria.
Acessando dados de armazenamento frio
Além de acessar seus dados do Azure Time Series Insights Explorer e APIs de Consulta de Série Temporal, você também pode querer acessar seus dados diretamente dos arquivos Parquet armazenados no armazenamento frio. Por exemplo, você pode ler, transformar e limpar dados em um notebook Jupyter e usá-los para treinar seu modelo do Azure Machine Learning no mesmo fluxo de trabalho do Spark.
Para acessar dados diretamente de sua conta de Armazenamento do Azure, você precisa de acesso de leitura à conta usada para armazenar seus dados do Azure Time Series Insights Gen2. Em seguida, você pode ler dados selecionados com base na hora de criação do arquivo Parquet localizado na pasta PT=Time
descrita abaixo na seção formato de arquivo Parquet. Para obter mais informações sobre como habilitar o acesso de leitura à sua conta de armazenamento, consulte Gerenciar o acesso aos recursos da conta de armazenamento.
Exclusão de dados
Não exclua seus arquivos do Azure Time Series Insights Gen2. Gerenciar dados relacionados somente no Azure Time Series Insights Gen2.
Formato de arquivo Parquet e estrutura de pastas
Parquet é um formato de arquivo columnar de software livre projetado para armazenamento e desempenho eficientes. O Azure Time Series Insights Gen2 usa o Parquet para habilitar o desempenho de consultas em grande escala com base no ID da Série Temporal.
Para obter mais informações sobre o tipo de arquivo Parquet, leia a documentação Parquet.
O Azure Time Series Insights Gen2 armazena cópias de seus dados da seguinte maneira:
A pasta
PT=Time
é particionada pelo tempo de ingestão e armazena dados aproximadamente em ordem de chegada. Esses dados são preservados ao longo do tempo e você pode acessá-los diretamente de fora do Azure Time Series Insight Gen2, como em seus notebooks Spark. O timestamp<YYYYMMDDHHMMSSfff>
corresponde ao tempo de entrada dos dados. O<MinEventTimeStamp>
e<MaxEventTimeStamp>
correspondem ao intervalo de carimbos de tempo dos eventos que estão incluídos no arquivo. O caminho e o nome do arquivo são formatados como:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
As pastas
PT=Live
ePT=Tsid
contêm uma segunda cópia de seus dados, reparticionada para melhorar o desempenho das consultas de séries temporais em grande escala. Esses dados são otimizados ao longo do tempo e não são estáticos. Durante o reparticionamento, alguns eventos podem estar presentes em vários blobs, e os nomes desses blobs podem mudar. Essas pastas são usadas pelo Azure Time Series Insights Gen2 e não devem ser acessadas diretamente; você só deve usarPT=Time
para essa finalidade.
Nota
Os dados na pasta PT=Time
de antes de junho de 2021 podem ter um formato de nome de arquivo sem intervalos de tempo de evento: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. O formato de arquivo interno é o mesmo e os arquivos com ambos os esquemas de nomenclatura podem ser usados juntos.
- O
<YYYY>
se refere a uma representação de ano com quatro dígitos. -
<MM>
mapeia para uma representação de mês de dois dígitos. - O formato
<YYYYMMDDHHMMSSfff>
dos carimbos de data/hora corresponde a um ano de quatro dígitos (YYYY
), mês de dois dígitos (MM
), dia de dois dígitos (DD
), hora de dois dígitos (HH
), minuto de dois dígitos (MM
), segundo de dois dígitos (SS
) e milissegundo de três dígitos (fff
).
Os eventos do Azure Time Series Insights Gen2 são mapeados para o conteúdo do arquivo Parquet da seguinte maneira:
- Cada evento é mapeado para uma única linha.
- Cada linha inclui a coluna de carimbo de data/hora, que contém o carimbo do evento
. A propriedade de carimbo de data/hora nunca é nula. Ele usa como padrão a hora enfileirada do evento se a propriedade de carimbo de data/hora não for especificada na origem do evento. O carimbo de data e hora armazenado está sempre em UTC. - Cada linha inclui a(s) coluna(s) ID da Série Temporal (TSID) conforme definido quando o ambiente Azure Time Series Insights Gen2 é criado. O nome da propriedade TSID inclui o sufixo
_string
. - Todas as outras propriedades enviadas como dados de telemetria são mapeadas para nomes de coluna que terminam com
_bool
(booliano),_datetime
(carimbo de data/hora),_long
(longo),_double
(duplo),_string
(cadeia de caracteres) ou_dynamic
(dinâmico), dependendo do tipo de propriedade. Para obter mais informações, leia sobre tipos de dados com suporte. - Esse esquema de mapeamento se aplica à primeira versão do formato de arquivo, referenciada como V=1e armazenada na pasta base de mesmo nome. À medida que esse recurso evolui, esse esquema de mapeamento pode mudar e o nome de referência pode ser incrementado.
Próximas etapas
Leia sobre de modelagem de dados.