Aggiornamento del flusso di dati
I flussi di dati consentono di connettersi, trasformare, combinare e caricare i dati nell'archiviazione per l'utilizzo downstream. Un elemento chiave nei flussi di dati è il processo di aggiornamento, che applica i passaggi di trasformazione definiti durante la creazione per estrarre, trasformare e caricare i dati nell'archiviazione di destinazione.
Un aggiornamento del flusso di dati può essere attivato in uno dei due modi, su richiesta o configurando una pianificazione dell'aggiornamento. Un aggiornamento pianificato viene eseguito in base ai giorni e agli orari specifici indicati.
Prerequisiti
Ecco i prerequisiti per l'aggiornamento di un flusso di dati:
On-demand refresh
Per aggiornare un flusso di dati su richiesta, selezionare l'cona Aggiorna disponibile nelle viste elenco dell'area di lavoro o derivazione.
Esistono altri modi in cui è possibile attivare un aggiornamento del flusso di dati su richiesta. Al termine della pubblicazione di un flusso di dati, viene avviato un aggiornamento su richiesta. L'aggiornamento su richiesta può essere attivato anche tramite una pipeline che contiene un'attività del flusso di dati.
Aggiornamento pianificato
Per aggiornare automaticamente un flusso di dati in base a una pianificazione, selezionare l'icona Aggiornamento pianificato disponibile nella vista elenco dell'area di lavoro:
La sezione aggiornamento consente di definire la frequenza e gli intervalli di tempo per aggiornare un flusso di dati, fino a 48 volte al giorno. Lo screenshot seguente mostra una pianificazione dell'aggiornamento con un intervallo di 12 ore.
Annulla aggiornamento
L'annullamento dell'aggiornamento del flusso di dati è utile quando si vuole arrestare un aggiornamento durante il periodo di picco, se una capacità sta per raggiungere i limiti o se l'aggiornamento richiede più tempo del previsto. Usare la funzionalità di annullamento dell'aggiornamento per interrompere l'aggiornamento dei flussi di dati.
Per annullare un aggiornamento del flusso di dati, selezionare l'icona Annulla che si trova nella vista elenco dell'area di lavoro o derivazione per un flusso di dati con aggiornamento in corso.
Dopo l'annullamento di un aggiornamento del flusso di dati, lo stato della cronologia di aggiornamento del flusso di dati viene aggiornato in modo da riflettere lo stato di annullamento:
Limitazioni dell'aggiornamento
Per gli aggiornamenti del flusso di dati, sono state applicate alcune limitazioni:
- Per flusso di dati, è consentito avere solo 150 aggiornamenti per 24 ore (finestra mobile). Quando si supera questo limite, si riceve un errore nella cronologia degli aggiornamenti e gli aggiornamenti riprendono quando si scende sotto il limite.
- Se l'aggiornamento pianificato del flusso di dati ha esito negativo più volte consecutivamente, sospende la pianificazione dell'aggiornamento del flusso di dati e invia il proprietario del flusso di dati a un messaggio e-mail. In questo caso vengono applicate le regole seguenti:
- 72 ore (3 giorni)
- Percentuale di errori del 100% su 72 ore
- Minimo 6 aggiornamenti (2 aggiornamenti al giorno)
- 168 ore (1 settimana)
- Percentuale di errori del 100% su 168 ore
- Minimo 5 aggiornamenti (1 aggiornamento al giorno)
- 72 ore (3 giorni)
- Una singola valutazione di una query ha un limite di 8 ore.
- Il tempo totale di aggiornamento di un singolo aggiornamento di un flusso di dati è limitato a un massimo di 24 ore.
- Per flusso di dati è possibile avere un massimo di 50 query a fasi o query con destinazione di output o una combinazione di entrambi.
Implicazioni per l'annullamento dell'aggiornamento dei dati di output
Un aggiornamento del flusso di dati può essere arrestato tramite la funzionalità di Annulla aggiornamento o se si è verificato un errore durante l'elaborazione delle query del flusso di dati. È possibile osservare risultati diversi a seconda del tipo di destinazione e quando l'aggiornamento è stato arrestato. Ecco i possibili risultati, per i due tipi di destinazione dei dati per una query:
- La query sta caricando i dati nella gestione temporanea: i dati dell'ultimo aggiornamento riuscito sono disponibili.
- La query carica i dati in una destinazione dati: i dati scritti fino al punto dell'annullamento sono disponibili.
Non tutte le query in un flusso di dati vengono elaborate contemporaneamente, ad esempio se un flusso di dati contiene molte query o alcune query dipendono da altre. Se un aggiornamento viene annullato prima che abbi inizio la valutazione di una query che carica i dati in una destinazione, non viene apportata alcuna modifica ai dati nella destinazione della query.