Archiviazione dati
Nota
Il servizio Time Series Insights verrà ritirato il 7 luglio 2024. Valutare la possibilità di eseguire la migrazione di ambienti esistenti a soluzioni alternative il prima possibile. Per saperne di più sulla deprecazione e la migrazione, visita la nostra documentazione .
Questo articolo descrive l'archiviazione dei dati in Azure Time Series Insights Gen2. Sono trattati i dati caldi e freddi, la disponibilità dei dati e le procedure più consigliate.
Fornitura
Quando si crea un ambiente Azure Time Series Insights Gen2, sono disponibili le opzioni seguenti:
- Archiviazione dati a freddo
- Archiviazione dei dati ad accesso frequente:
- Un archivio caldo è facoltativo e può essere abilitato o disabilitato durante o dopo la fase di provisioning. Se si decide di abilitare l'archivio ad accesso frequente in un secondo momento e sono già presenti dati nell'archivio ad accesso sporadico, esaminare questa sezione di seguito per comprendere il comportamento previsto. Il tempo di conservazione dei dati dell'archivio ad accesso frequente può essere configurato da 7 a 31 giorni e tale periodo può essere adattato secondo necessità.
Quando un evento viene inserito, viene indicizzato sia nel warm store (se abilitato) che nel cold store.
Avvertimento
Come proprietario dell'account di archiviazione BLOB di Azure in cui risiedono i dati di archiviazione a freddo, hai pieno accesso a tutti i dati nell'account. Questo accesso include autorizzazioni di scrittura ed eliminazione. Non modificare o eliminare i dati scritti da Azure Time Series Insights Gen2 perché ciò può causare la perdita di dati.
Disponibilità dei dati
Azure Time Series Insights Gen2 suddivide e indicizza i dati per prestazioni ottimali delle query. I dati diventano disponibili per essere interrogati sia dall'archivio caldo (se abilitato) che dall'archivio freddo dopo l'indicizzazione. La quantità di dati inseriti e la velocità effettiva per partizione può influire sulla disponibilità. Esaminare le limitazioni del throughput dell'origine eventi e le procedure consigliate per ottenere prestazioni ottimali. È possibile anche configurare un avviso di ritardo per ricevere una notifica se l'ambiente riscontra problemi durante l'elaborazione dei dati.
Importante
È possibile che passi un periodo massimo di 60 secondi prima che i dati diventino disponibili tramite le API di query di serie temporali . Se si verifica una latenza significativa oltre 60 secondi, inviare un ticket di supporto tramite il portale di Azure.
È possibile che si verifichi un periodo di tempo massimo di 5 minuti prima che i dati diventino disponibili quando si accede direttamente ai file Parquet all'esterno di Azure Time Series Insights Gen2. Per ulteriori informazioni, vedere la sezione Formato di file Parquet.
Archivio ad accesso frequente
I dati nell'archivio ad accesso frequente sono disponibili solo tramite le API di query Time Series , l'Azure Time Series Insights TSI Explorero il connettore Power BI. Le query del Warm Store sono gratuite e non vi è alcuna limitazione, ma esiste un limite di di 30 richieste simultanee.
Comportamento della memoria calda
Quando abilitato, tutti i dati trasmessi nell'ambiente verranno instradati al tuo archivio ad accesso frequente, indipendentemente dal timestamp dell'evento. Si noti che la pipeline di inserimento di streaming è compilata per lo streaming quasi in tempo reale e l'inserimento di eventi cronologici è non supportato.
Il periodo di conservazione viene calcolato in base al momento in cui l'evento è stato indicizzato nell'archivio a caldo, e non al timestamp dell'evento. Ciò significa che i dati non sono più disponibili nell'archivio caldo dopo che è trascorso il periodo di conservazione, anche se la marca temporale dell'evento è per il futuro.
- Esempio: un evento con previsioni meteo di 10 giorni viene inserito e indicizzato in un contenitore di archiviazione ad accesso frequente configurato con un periodo di conservazione di 7 giorni. Dopo sette giorni, la previsione non è più accessibile nell'archivio ad accesso frequente, ma può essere eseguita una query nell'archivio a bassa disponibilità.
Se si abilita il warm store in un ambiente esistente che ha già dati recenti indicizzati nel cold storage, si noti che il warm store non verrà riempito retroattivamente con questi dati.
Se hai appena abilitato l'archivio ad accesso frequente e riscontri problemi nella visualizzazione dei dati recenti in Explorer, puoi disattivare temporaneamente le query dell'archivio ad accesso frequente:
Cella frigorifera
Questa sezione descrive i dettagli di Archiviazione di Azure rilevanti per Azure Time Series Insights Gen2.
Per una descrizione completa sui BLOB di archiviazione di Azure, leggere l'introduzione ai BLOB di archiviazione .
Account di archiviazione ad accesso sporadico
Azure Time Series Insights Gen2 conserva fino a due copie di ogni evento nell'account di archiviazione di Azure. Una copia archivia gli eventi ordinati in base al tempo di inserimento, consentendo sempre l'accesso agli eventi in una sequenza ordinata nel tempo. Nel corso del tempo, Azure Time Series Insights Gen2 crea anche una copia ripartizionata dei dati per ottimizzare le query con prestazioni elevate.
Tutti i dati vengono archiviati per un periodo illimitato nell'account di archiviazione di Azure.
Avvertimento
Non limitare l'accesso a Internet pubblico all'account di archiviazione usato da Time Series Insights o la connessione necessaria verrà interrotta.
Scrittura e modifica di BLOB
Per garantire le prestazioni delle query e la disponibilità dei dati, non modificare o eliminare i blob creati da Azure Time Series Insights Gen2.
Accesso ai dati di archiviazione a freddo
Oltre ad accedere ai dati dal Azure Time Series Insights Explorer e API di Query Time Series, è anche possibile accedere ai dati direttamente dai file Parquet archiviati nell'archivio a freddo. Ad esempio, è possibile leggere, trasformare e pulire i dati in un notebook di Jupyter, quindi usarli per eseguire il training del modello di Azure Machine Learning nello stesso flusso di lavoro Spark.
Per accedere ai dati direttamente dall'account di archiviazione di Azure, è necessario accedere in lettura all'account usato per archiviare i dati di Azure Time Series Insights Gen2. È quindi possibile leggere i dati selezionati in base all'ora di creazione del file Parquet che si trova nella cartella PT=Time
, come descritto di seguito nella sezione del formato di file Parquet. Per altre informazioni sull'abilitazione dell'accesso in lettura all'account di archiviazione, vedere Gestire l'accesso alle risorse dell'account di archiviazione.
Eliminazione dei dati
Non eliminare i file di Azure Time Series Insights Gen2. Gestire i dati correlati solo dall'interno di Azure Time Series Insights Gen2.
Formato file Parquet e struttura delle cartelle
Parquet è un formato di file a colonne open source progettato per un'archiviazione e prestazioni efficienti. Azure Time Series Insights Gen2 usa Parquet per abilitare le prestazioni delle query basate su ID serie temporali su larga scala.
Per altre informazioni sul tipo di file Parquet, vedere la documentazione di Parquet.
Azure Time Series Insights Gen2 archivia le copie dei dati come indicato di seguito:
La cartella
PT=Time
viene partizionata in base al tempo di inserimento e archivia i dati approssimativamente in ordine di arrivo. Questi dati vengono mantenuti nel tempo ed è possibile accedervi direttamente dall'esterno di Azure Time Series Insight Gen2, ad esempio dai notebook Spark. Il timestamp<YYYYMMDDHHMMSSfff>
corrisponde al tempo di inserimento dei dati. Il<MinEventTimeStamp>
e<MaxEventTimeStamp>
corrispondono all'intervallo di timestamp degli eventi inclusi nel file. Il percorso e il nome file sono formattati come segue:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Le cartelle
PT=Live
ePT=Tsid
contengono una seconda copia dei dati, ripartizionata per migliorare le prestazioni delle query di serie temporali su larga scala. Questi dati sono ottimizzati nel tempo e non sono statici. Durante il ripartizionamento, alcuni eventi potrebbero essere presenti in più blob e i nomi dei blob potrebbero cambiare. Queste cartelle vengono usate da Azure Time Series Insights Gen2 e non devono essere accessibili direttamente; è consigliabile usare soloPT=Time
a tale scopo.
Nota
I dati nella cartella PT=Time
precedenti a giugno 2021 potrebbero avere un formato del nome del file che non indica gli intervalli di tempo dell'evento: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. Il formato di file interno è lo stesso e i file con entrambi gli schemi di denominazione possono essere usati insieme.
-
<YYYY>
corrisponde a una rappresentazione dell'anno a quattro cifre. -
<MM>
corrisponde a una rappresentazione di mese a due cifre. - Il formato
<YYYYMMDDHHMMSSfff>
dei timestamp viene mappato a un anno a quattro cifre (YYYY
), mese a due cifre (MM
), giorno a due cifre (DD
), ora a due cifre (HH
), minuto a due cifre (MM
), secondo a due cifre (SS
) e millisecondo a tre cifre (fff
).
Gli eventi di Azure Time Series Insights Gen2 vengono mappati al contenuto del file Parquet come indicato di seguito:
- Ogni evento corrisponde a una singola riga.
- Ogni riga include la colonna timestamp con un timestamp dell'evento. La proprietà timestamp non è mai nulla. L'impostazione predefinita è l'ora accodata dell'evento se la proprietà timestamp non è specificata nell'origine evento. Il timestamp archiviato è sempre in formato UTC.
- Ogni riga include la colonna o le colonne Time Series ID (TSID) definite al momento della creazione dell'ambiente Azure Time Series Insights Gen2. Il nome della proprietà TSID include il suffisso
_string
. - Tutte le altre proprietà inviate come dati di telemetria vengono mappate ai nomi di colonna che terminano con
_bool
(booleano),_datetime
(timestamp),_long
(long),_double
(double),_string
(string) o_dynamic
(dinamica), a seconda del tipo di proprietà. Per altre informazioni, vedere Tipi di dati supportati. - Questo schema di mapping si applica alla prima versione del formato di file, a cui viene fatto riferimento come V=1e archiviato nella cartella di base con lo stesso nome. Man mano che questa funzionalità si evolve, questo schema di mapping potrebbe cambiare e il nome di riferimento potrebbe essere aggiornato.