Copiare dati da una tabella Web usando Azure Data Factory o Synapse Analytics
SI APPLICA A: Azure Data Factory Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!
Questo articolo illustra come usare l'attività di copia in una pipeline di Azure Data Factory o Synapse Analytics per copiare dati da un database di tabelle Web. Si basa sull'articolo di panoramica dell'attività di copia che presenta una panoramica generale sull'attività di copia.
La differenza tra questo connettore Tabella Web, il connettore REST e il connettore HTTP è la seguente:
- Il connettore Tabella Web estrae il contenuto della tabella da una pagina Web HTML.
- Il connettore REST supporta in modo specifico la copia dei dati dalle API RESTful.
- Il connettore HTTP è un connettore generico per recuperare i dati da qualsiasi endpoint HTTP, ad esempio per scaricare file.
Funzionalità supportate
Questo connettore di tabelle Web è supportato per le funzionalità seguenti:
Funzionalità supportate | IR |
---|---|
Attività Copy (origine/-) | (2) |
Attività Lookup | (2) |
① Azure Integration Runtime ② Runtime di integrazione self-hosted
Per un elenco degli archivi dati supportati come origini o sink, vedere la tabella Archivi dati supportati.
In particolare, il connettore Tabella Web supporta l'estrazione del contenuto di una tabella da una pagina HTML.
Prerequisiti
Per usare questo connettore di tabelle Web, è necessario impostare un runtime di integrazione self-hosted. Per i dettagli, vedere l'articolo Runtime di integrazione self-hosted.
Introduzione
Per eseguire l'attività di copia con una pipeline, è possibile usare uno degli strumenti o SDK seguenti:
- Strumento Copia dati
- Il portale di Azure
- .NET SDK
- SDK di Python
- Azure PowerShell
- API REST
- Modello di Azure Resource Manager
Creare un servizio collegato a una tabella Web usando l'interfaccia utente
Usare la procedura seguente per creare un servizio collegato alla tabella Web nell'interfaccia utente di portale di Azure.
Passare alla scheda Gestisci nell'area di lavoro di Azure Data Factory o Synapse e selezionare Servizi collegati, quindi fare clic su Nuovo:
Cercare Web e selezionare il connettore Tabella Web.
Configurare i dettagli del servizio, testare la connessione e creare il nuovo servizio collegato.
Dettagli di configurazione del connettore
Le sezioni seguenti riportano informazioni dettagliate sulle proprietà che vengono usate per definire entità di Data Factory specifiche per il connettore Tabella Web.
Proprietà del servizio collegato
Per il servizio collegato di Tabella Web sono supportate le proprietà seguenti:
Proprietà | Descrizione | Richiesto |
---|---|---|
type | La proprietà type deve essere impostata su: Web | Sì |
URL. | URL dell'origine Web | Sì |
authenticationType | Il valore consentito è: Anonima. | Sì |
connectVia | Il runtime di integrazione da usare per la connessione all'archivio dati. È necessario un runtime di integrazione self-hosted come indicato in Prerequisiti. | Sì |
Esempio:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Proprietà del set di dati
Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione di set di dati, vedere l'articolo sui set di dati. Questa sezione presenta un elenco delle proprietà supportate dal set di dati Tabella Web.
Per copiare dati da Tabella Web, impostare la proprietà type del set di dati su WebTable. Sono supportate le proprietà seguenti:
Proprietà | Descrizione | Richiesto |
---|---|---|
type | La proprietà type del set di dati deve essere impostata su: WebTable | Sì |
path | URL relativo della risorsa che contiene la tabella. | No. Quando non è specificato alcun percorso, viene usato solo l'URL specificato nella definizione del servizio collegato. |
index | Indice della tabella nella risorsa. Per i passaggi per ottenere l'indice di una tabella in una pagina HTML, vedere la sezione Ottenere l'indice di una tabella in una pagina HTML . | Sì |
Esempio:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
Proprietà dell'attività di copia
Per un elenco completo delle sezioni e delle proprietà disponibili per la definizione delle attività, vedere l'articolo sulle pipeline. Questa sezione presenta un elenco delle proprietà supportate dall'origine Tabella Web.
Tabella Web come origine
Per copiare dati da Tabella Web, impostare il tipo di origine nell'attività di copia su WebSource. Non sono supportate altre proprietà.
Esempio:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Ottenere l'indice di una tabella in una pagina HTML
Per ottenere l'indice di una tabella che è necessario configurare nelle proprietà del set di dati, è possibile usare, ad esempio, Excel 2016 come strumento, come indicato di seguito:
Avviare Excel 2016 e passare alla scheda Dati.
Fare clic su Nuova query sulla barra degli strumenti, scegliere Da altre origini e fare clic su Da Web.
Nella finestra di dialogo Da Web immettere l'URL che si userebbe in JSON del servizio collegato (ad esempio: https://en.wikipedia.org/wiki/) insieme al percorso specificato per il set di dati, ad esempio AFI%27s_100_Years... 100_Movies) e fare clic su OK.
URL usato in questo esempio: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
Se viene visualizzata la finestra di dialogo Accedi a contenuto Web, selezionare l'URL corretto, l'autenticazione e fare clic su Connetti.
Fare clic su un elemento della tabella nella visualizzazione ad albero per visualizzare il contenuto dalla tabella e quindi fare clic su Modifica nella parte inferiore.
Nella finestra Editor di query fare clic sul pulsante Editor avanzato sulla barra degli strumenti.
Nella finestra di dialogo Editor avanzato il numero accanto a "Source" è l'indice.
Se si usa Excel 2013, per ottenere l'indice usare Microsoft Power Query per Excel . Per informazioni dettagliate, vedere l'articolo Connettersi a una pagina Web (Power Query) . I passaggi sono simili se si usa Microsoft Power BI Desktop.
Proprietà dell'attività Lookup
Per altre informazioni sulle proprietà, vedere Attività Lookup.
Contenuto correlato
Per un elenco degli archivi dati supportati come origini e sink dall'attività Copy, vedere Archivi dati supportati.