Archiviazione dati

Articolo
01/21/2021

Nota

Il servizio Time Series Insights verrà ritirato il 7 luglio 2024. Valutare la possibilità di eseguire la migrazione di ambienti esistenti a soluzioni alternative il prima possibile. Per saperne di più sulla deprecazione e la migrazione, visita la nostra documentazione .

Questo articolo descrive l'archiviazione dei dati in Azure Time Series Insights Gen2. Sono trattati i dati caldi e freddi, la disponibilità dei dati e le procedure più consigliate.

Fornitura

Quando si crea un ambiente Azure Time Series Insights Gen2, sono disponibili le opzioni seguenti:

Archiviazione dati a freddo
- Creare una nuova risorsa di Archiviazione di Azure nella sottoscrizione e nell'area scelta per l'ambiente.
- Collegare un account di archiviazione di Azure preesistente. Questa opzione è disponibile solo distribuendo da un modello di Azure Resource Manager e non è visibile nel portale di Azure.
Archiviazione dei dati ad accesso frequente:
- Un archivio caldo è facoltativo e può essere abilitato o disabilitato durante o dopo la fase di provisioning. Se si decide di abilitare l'archivio ad accesso frequente in un secondo momento e sono già presenti dati nell'archivio ad accesso sporadico, esaminare questa sezione di seguito per comprendere il comportamento previsto. Il tempo di conservazione dei dati dell'archivio ad accesso frequente può essere configurato da 7 a 31 giorni e tale periodo può essere adattato secondo necessità.

Quando un evento viene inserito, viene indicizzato sia nel warm store (se abilitato) che nel cold store.

Avvertimento

Come proprietario dell'account di archiviazione BLOB di Azure in cui risiedono i dati di archiviazione a freddo, hai pieno accesso a tutti i dati nell'account. Questo accesso include autorizzazioni di scrittura ed eliminazione. Non modificare o eliminare i dati scritti da Azure Time Series Insights Gen2 perché ciò può causare la perdita di dati.

Disponibilità dei dati

Azure Time Series Insights Gen2 suddivide e indicizza i dati per prestazioni ottimali delle query. I dati diventano disponibili per essere interrogati sia dall'archivio caldo (se abilitato) che dall'archivio freddo dopo l'indicizzazione. La quantità di dati inseriti e la velocità effettiva per partizione può influire sulla disponibilità. Esaminare le limitazioni del throughput dell'origine eventi e le procedure consigliate per ottenere prestazioni ottimali. È possibile anche configurare un avviso di ritardo per ricevere una notifica se l'ambiente riscontra problemi durante l'elaborazione dei dati.

Importante

È possibile che passi un periodo massimo di 60 secondi prima che i dati diventino disponibili tramite le API di query di serie temporali . Se si verifica una latenza significativa oltre 60 secondi, inviare un ticket di supporto tramite il portale di Azure.

È possibile che si verifichi un periodo di tempo massimo di 5 minuti prima che i dati diventino disponibili quando si accede direttamente ai file Parquet all'esterno di Azure Time Series Insights Gen2. Per ulteriori informazioni, vedere la sezione Formato di file Parquet.

Archivio ad accesso frequente

I dati nell'archivio ad accesso frequente sono disponibili solo tramite le API di query Time Series , l'Azure Time Series Insights TSI Explorero il connettore Power BI. Le query del Warm Store sono gratuite e non vi è alcuna limitazione, ma esiste un limite di di 30 richieste simultanee.

Comportamento della memoria calda

Quando abilitato, tutti i dati trasmessi nell'ambiente verranno instradati al tuo archivio ad accesso frequente, indipendentemente dal timestamp dell'evento. Si noti che la pipeline di inserimento di streaming è compilata per lo streaming quasi in tempo reale e l'inserimento di eventi cronologici è non supportato.
Il periodo di conservazione viene calcolato in base al momento in cui l'evento è stato indicizzato nell'archivio a caldo, e non al timestamp dell'evento. Ciò significa che i dati non sono più disponibili nell'archivio caldo dopo che è trascorso il periodo di conservazione, anche se la marca temporale dell'evento è per il futuro.
- Esempio: un evento con previsioni meteo di 10 giorni viene inserito e indicizzato in un contenitore di archiviazione ad accesso frequente configurato con un periodo di conservazione di 7 giorni. Dopo sette giorni, la previsione non è più accessibile nell'archivio ad accesso frequente, ma può essere eseguita una query nell'archivio a bassa disponibilità.
Se si abilita il warm store in un ambiente esistente che ha già dati recenti indicizzati nel cold storage, si noti che il warm store non verrà riempito retroattivamente con questi dati.
Se hai appena abilitato l'archivio ad accesso frequente e riscontri problemi nella visualizzazione dei dati recenti in Explorer, puoi disattivare temporaneamente le query dell'archivio ad accesso frequente:

Cella frigorifera

Questa sezione descrive i dettagli di Archiviazione di Azure rilevanti per Azure Time Series Insights Gen2.

Per una descrizione completa sui BLOB di archiviazione di Azure, leggere l'introduzione ai BLOB di archiviazione .

Account di archiviazione ad accesso sporadico

Azure Time Series Insights Gen2 conserva fino a due copie di ogni evento nell'account di archiviazione di Azure. Una copia archivia gli eventi ordinati in base al tempo di inserimento, consentendo sempre l'accesso agli eventi in una sequenza ordinata nel tempo. Nel corso del tempo, Azure Time Series Insights Gen2 crea anche una copia ripartizionata dei dati per ottimizzare le query con prestazioni elevate.

Tutti i dati vengono archiviati per un periodo illimitato nell'account di archiviazione di Azure.

Avvertimento

Non limitare l'accesso a Internet pubblico all'account di archiviazione usato da Time Series Insights o la connessione necessaria verrà interrotta.

Scrittura e modifica di BLOB

Per garantire le prestazioni delle query e la disponibilità dei dati, non modificare o eliminare i blob creati da Azure Time Series Insights Gen2.

Accesso ai dati di archiviazione a freddo

Oltre ad accedere ai dati dal Azure Time Series Insights Explorer e API di Query Time Series, è anche possibile accedere ai dati direttamente dai file Parquet archiviati nell'archivio a freddo. Ad esempio, è possibile leggere, trasformare e pulire i dati in un notebook di Jupyter, quindi usarli per eseguire il training del modello di Azure Machine Learning nello stesso flusso di lavoro Spark.

Per accedere ai dati direttamente dall'account di archiviazione di Azure, è necessario accedere in lettura all'account usato per archiviare i dati di Azure Time Series Insights Gen2. È quindi possibile leggere i dati selezionati in base all'ora di creazione del file Parquet che si trova nella cartella PT=Time, come descritto di seguito nella sezione del formato di file Parquet. Per altre informazioni sull'abilitazione dell'accesso in lettura all'account di archiviazione, vedere Gestire l'accesso alle risorse dell'account di archiviazione.

Eliminazione dei dati

Non eliminare i file di Azure Time Series Insights Gen2. Gestire i dati correlati solo dall'interno di Azure Time Series Insights Gen2.

Formato file Parquet e struttura delle cartelle

Parquet è un formato di file a colonne open source progettato per un'archiviazione e prestazioni efficienti. Azure Time Series Insights Gen2 usa Parquet per abilitare le prestazioni delle query basate su ID serie temporali su larga scala.

Per altre informazioni sul tipo di file Parquet, vedere la documentazione di Parquet.

Azure Time Series Insights Gen2 archivia le copie dei dati come indicato di seguito:

La cartella PT=Time viene partizionata in base al tempo di inserimento e archivia i dati approssimativamente in ordine di arrivo. Questi dati vengono mantenuti nel tempo ed è possibile accedervi direttamente dall'esterno di Azure Time Series Insight Gen2, ad esempio dai notebook Spark. Il timestamp <YYYYMMDDHHMMSSfff> corrisponde al tempo di inserimento dei dati. Il <MinEventTimeStamp> e <MaxEventTimeStamp> corrispondono all'intervallo di timestamp degli eventi inclusi nel file. Il percorso e il nome file sono formattati come segue:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Le cartelle PT=Live e PT=Tsid contengono una seconda copia dei dati, ripartizionata per migliorare le prestazioni delle query di serie temporali su larga scala. Questi dati sono ottimizzati nel tempo e non sono statici. Durante il ripartizionamento, alcuni eventi potrebbero essere presenti in più blob e i nomi dei blob potrebbero cambiare. Queste cartelle vengono usate da Azure Time Series Insights Gen2 e non devono essere accessibili direttamente; è consigliabile usare solo PT=Time a tale scopo.