Condividi tramite


Creare un percorso esterno per i dati nella radice DBFS

Questo articolo illustra come configurare un'ubicazione esterna in Unity Catalog per regolare l'accesso alla posizione di archiviazione radice DBFS. Anche se Databricks sconsiglia di archiviare i dati nella radice di archiviazione DBFS, l'area di lavoro potrebbe ancora farlo a causa di abitudini del passato.

Posizioni esterne sono oggetti proteggibili dal catalogo Unity che associano le credenziali di archiviazione ai contenitori di archiviazione degli oggetti nel cloud. I percorsi esterni vengono usati per definire percorsi di archiviazione gestiti per tabelle e volumi gestiti e per gestire l'accesso ai percorsi di archiviazione che contengono tabelle esterne e volumi esterni.

È necessario creare una localizzazione esterna se il metastore Hive legacy locale dell'area di lavoro di Azure Databricks archivia i dati nella radice DBFS e si vuole federare il metastore Hive legacy in modo che il team possa collaborare con le tabelle del metastore Hive utilizzando Unity Catalog. Consulta la federazione del metastore Hive: abilita il catalogo Unity per gestire le tabelle registrate in un metastore Hive e abilita la federazione del metastore Hive per un metastore legacy di Hive.

Prima di iniziare

Per creare un percorso esterno per la radice DBFS, è necessario disporre di una credenziale di archiviazione definita in Unity Catalog che consente l'accesso alla posizione di archiviazione cloud della radice DBFS. Se non ne hai già uno, il sistema può crearne uno per te durante il processo di creazione dell'ubicazione esterna.

Requisiti delle autorizzazioni:

  • È necessario disporre dei privilegi di CREATE STORAGE CREDENTIAL e CREATE EXTERNAL LOCATION nel metastore. Per impostazione predefinita, gli amministratori metastore hanno questi privilegi.

    Nota

    Se esiste già una credenziale di archiviazione per il percorso di archiviazione della radice DBFS, l'utente che crea il percorso esterno non necessita di CREATE STORAGE CREDENTIAL, ma richiede CREATE EXTERNAL LOCATION sia nelle credenziali di archiviazione che nel metastore.

  • È necessario essere un amministratore dell'area di lavoro affinché il sistema crei le credenziali di archiviazione per te durante la creazione della destinazione esterna.

    Non è necessario essere un amministratore dell'area di lavoro se esiste già una credenziale di archiviazione che concede l'accesso al percorso di archiviazione radice DBFS e si dispone di CREATE EXTERNAL LOCATION sia sulla credenziale di archiviazione che sul metastore.

Crea la posizione esterna

È possibile usare Esplora cataloghi per creare un percorso esterno per la radice DBFS.

  1. Nella barra laterale fare clic sull'icona CatalogoCatalogo.

  2. Fare clic su > dati esterni e Crea percorso esterno.

  3. Inserire un nome per il percorso esterno .

  4. In URLfare clic su copia dal di montaggio DBFS e selezionare Copia dalla radice DBFS.

    I campi URL e sottopercorso vengono popolati con il percorso di archiviazione nel cloud alla radice di DBFS.

    Importante

    Quando si crea una posizione esterna per la radice DBFS, è necessario usare il percorso secondario per la posizione radice DBFS, non il percorso dell'intero bucket. Il sottopercorso viene prepopolato con user/hive/warehouse, che è un percorso di archiviazione predefinito per le tabelle metastore Hive. Se si desidera un controllo di accesso più granulare ai dati nella radice DBFS, è possibile creare percorsi esterni separati per i percorsi secondari all'interno della radice DBFS.

    Avvertimento

    La radice DBFS potrebbe essere archiviata in Azure Blob Storage anziché in Azure Data Lake Storage Gen2. Questi percorsi sono accessibili usando il driver wasb, che non consente controlli a livello di directory o a livello di file. Pertanto, Unity Catalog può applicare il controllo di accesso solo a livello di contenitore, il che significa che gli utenti con accesso a questa posizione esterna possono potenzialmente accedere ad altri dati nello stesso contenitore se usano cluster con modalità di accesso utente singolo. Per evitare questo problema, applicare l'uso di cluster in modalità di accesso condiviso, magazzini di dati SQL o calcolo serverless.

  5. Selezionare una credenziale di archiviazione che conceda l'accesso al percorso principale di archiviazione cloud di DBFS oppure, se non è definita una credenziale, fare clic su + Crea nuova credenziale di archiviazione.

    Per creare le credenziali di archiviazione, selezionare un tipo di credenziali di DBFS Root. Una credenziale di archiviazione viene creata automaticamente quando si salva il percorso esterno.

  6. (Facoltativo) Aggiungere un commento.

  7. (Facoltativo) Fare clic su Opzioni avanzate e abilitare modalità di fallback.

    La modalità di fallback è destinata agli scenari di migrazione dei carichi di lavoro legacy. Consultare Abilitare la modalità di fallback in posizioni esterne.

  8. Fai clic su Crea.

  9. Passare alla scheda Autorizzazioni per concedere l'autorizzazione per l'uso della posizione esterna.

    1. Fare clic su Concedi.
    2. Selezionare utenti, gruppi o entità servizio nel campo principals e selezionare il privilegio che si vuole concedere.
    3. Fare clic su Concedi.
  10. (Facoltativo) Impostare le aree di lavoro che possono accedere a questa posizione esterna.

    Per impostazione predefinita, è possibile concedere agli utenti di qualsiasi area di lavoro che utilizza questo metastore del catalogo Unity l'accesso ai dati in questa posizione. È possibile limitare l'accesso a aree di lavoro specifiche. Databricks consiglia di limitare l'accesso all'area di lavoro in cui si trova la radice DBFS.

    Fare riferimento a Associare una posizione esterna a una o più aree di lavoro.