Nota sulla versione di disponibilità generale del catalogo Unity
Importante
Questa documentazione è stata ritirata e potrebbe non essere aggiornata. Il prodotto, il servizio o la tecnologia citati in questo contenuto non sono più supportati. Vedere Che cos'è Unity Catalog?.
25 agosto 2022
Unity Catalog è ora disponibile a livello generale su Azure Databricks.
Questo articolo descrive Unity Catalog a partire dalla data della versione di disponibilità generale. È incentrato principalmente sulle funzionalità e sugli aggiornamenti aggiunti al catalogo Unity dall'anteprima pubblica. Per informazioni aggiornate sul catalogo Unity, vedere Che cos'è il catalogo Unity?. Per le note sulla versione che descrivono gli aggiornamenti di Unity Catalog a partire dalla disponibilità generale, vedere note sulla versione della piattaforma Azure Databricks e Versioni e compatibilità delle note sulla versione di Databricks Runtime.
Limiti del metastore e quote di risorse
Alla data 25 agosto 2022
- L'account Azure Databricks può avere un solo metastore per area
- Un metastore può avere fino a 1000 cataloghi.
- Un catalogo può avere fino a 10.000 schemi.
- Uno schema può avere fino a 10.000 tabelle.
Per le quote correnti del catalogo Unity, vedere Quote di risorse.
Formati di archiviazione di disponibilità generale supportati
Alla data 25 agosto 2022:
- Tutte le tabelle di Unity Catalog gestite archiviano i dati con Delta Lake
- Le tabelle esterne del catalogo Unity e le posizioni esterne supportano i dati Delta Lake, JSON, CSV, Avro, Parquet, ORC e text.
Per i formati di tabella supportati dal catalogo Unity corrente, vedere Supporto del formato di file.
Gestire le risorse del catalogo Unity dalla console dell'account
Usare l’interfaccia utente della console degli account di Azure Databricks per:
- Gestire il ciclo di vita del metastore (creare, aggiornare, eliminare e visualizzare metastore gestiti dal catalogo Unity)
- Assegnare e rimuovere metastore per le aree di lavoro
Tipi di cluster supportati e versioni di Databricks Runtime
Il catalogo Unity richiede cluster che eseguono Databricks Runtime 11.1 o versione successiva. Il catalogo Unity è supportato per impostazione predefinita in tutte le versioni di calcolo di SQL Warehouse.
Versioni precedenti di Databricks Runtime supportano le versioni di anteprima di Unity Catalog. I cluster in esecuzione nelle versioni precedenti di Databricks Runtime non forniscono supporto per tutte le caratteristiche e le funzionalità disponibili a livello generale per Unity Catalog.
Quando si crea un nuovo cluster, il catalogo Unity richiede una delle modalità di accesso seguenti:
- Condiviso
- Linguaggi: SQL o Python
- Un cluster sicuro che può essere condiviso da più utenti. Gli utenti del cluster sono completamente isolati in modo che non possano visualizzare i dati e le credenziali degli altri.
- Un solo utente
- Linguaggi: SQL, Scala, Python, R
- Un cluster sicuro che può essere usato esclusivamente da un singolo utente specificato.
Per altre informazioni sulle modalità di accesso al cluster, vedere Modalità di accesso.
Per informazioni sulle funzionalità aggiornate di Unity Catalog nelle versioni successive di Databricks Runtime, vedere le rispettive note sulla versione.
Tabelle di sistema
information_schema
è completamente supportato per gli asset di dati di Unity Catalog. Ogni metastore include un catalogo denominato system
che include un metastore con ambito information_schema
. Vedere Schema di informazioni. È possibile usare information_schema
per rispondere a domande come le seguenti:
"Contare il numero di tabelle per catalogo"
SELECT table_catalog, count(table_name)
FROM system.information_schema.tables
GROUP BY 1
ORDER by 2 DESC
"Mostra tutte le tabelle modificate nelle ultime 24 ore"
SELECT table_name, table_owner, created_by, last_altered, last_altered_by, table_catalog
FROM system.information_schema.tables
WHERE datediff(now(), last_altered) < 1
Supporto di streaming strutturato
I carichi di lavoro Structured Streaming sono ora supportati con Unity Catalog. Per informazioni e limitazioni, vedere Limitazioni.
Vedere anche Utilizzo del catalogo Unity con Structured Streaming.
Funzioni SQL
Le funzioni SQL definite dall'utente sono ora completamente supportate nel catalogo Unity. Per informazioni su come creare e usare le funzioni definite dall'utente SQL, consultare CREATE FUNCTION (SQL e Python).
Sintassi SQL per percorsi esterni nel catalogo Unity
I comandi standard per la definizione dei dati e il linguaggio di definizione dei dati sono ora supportati in Spark SQL per le posizioni esterne, inclusi i seguenti:
CREATE | DROP | ALTER | DESCRIBE | SHOW EXTERNAL LOCATION
È anche possibile gestire e visualizzare le autorizzazioni con GRANT
, REVOKE
e SHOW
per le posizioni esterne con SQL. VederePosizioni esterne.
Sintassi di esempio:
CREATE EXTERNAL LOCATION <your-location-name>
URL `<your-location-path>'
WITH (CREDENTIAL <your-credential-name>);
GRANT READ FILES, WRITE FILES, CREATE EXTERNAL TABLE ON EXTERNAL LOCATION `<your-location-name>`
TO `finance`;
Limitazioni disponibili a livello generale per Unity Catalog
Alla data 25 agosto 2022, Unity Catalog presentava le seguenti limitazioni. Per le limitazioni correnti, si veda Limitazioni.
- I carichi di lavoro Scala, R e Machine Learning Runtime sono supportati solo nei cluster che usano la modalità di accesso utente singolo. I carichi di lavoro in queste lingue non supportano l'uso di visualizzazioni dinamiche per la sicurezza a livello di riga o a livello di colonna.
- I cloni superficiali non sono supportati quando si usa Unity Catalog come origine o destinazione del clone.
- Il bucketing non è supportato per le tabelle di Unity Catalog. Se si eseguono comandi che tentano di creare una tabella in bucket nello Unity Catalog, si genererà un'eccezione.
- La scrittura nello stesso percorso o nella tabella Delta Lake dalle aree di lavoro in più aree può causare prestazioni inaffidabili se alcuni cluster accedono a Unity Catalog e altri no.
- La modalità di sovrascrittura per le operazioni di scrittura dei DataFrame in Unity Catalog è supportata solo per le tabelle Delta, non per altri formati di file. L'utente deve disporre del privilegio
CREATE
per lo schema padre e deve essere il proprietario dell'oggetto esistente. - Lo streaming presenta attualmente le limitazioni seguenti:
- Non è supportato nei cluster che usano la modalità di accesso condiviso. Per i carichi di lavoro di streaming, è necessario usare la modalità di accesso utente singolo.
- Il checkpoint asincrono non è ancora supportato.
- In Databricks Runtime versione 11.2 e precedenti, le query di streaming che durano più di 30 giorni in cluster multifunzionali o di processi genereranno un'eccezione. Per le query di streaming con esecuzione prolungata, configurare i tentativi automatici dei processi o usare Databricks Runtime 11.3 e versioni successive.
- Il riferimento alle tabelle di Unity Catalog dalle pipeline Delta Live Tables non è attualmente supportato.
- I gruppi creati in precedenza in un'area di lavoro non possono essere usati nelle istruzioni GRANT del catalogo Unity. Ciò consente di garantire una visualizzazione coerente dei gruppi che possono estendersi tra aree di lavoro. Per usare i gruppi nelle istruzioni GRANT, creare i gruppi nella console dell'account e aggiornare qualsiasi automazione per la gestione del principale o del gruppo, ad esempio i connettori SCIM, Okta e Microsoft Entra ID e Terraform, per riferirsi agli endpoint dell'account anziché a quelli dell'area di lavoro.
Aree di disponibilità del catalogo Unity a livello generale
Alla data 25 agosto 2022, Unity Catalog era disponibile nelle aree seguenti. Per trovare l'elenco delle aree attualmente supportate, vedere Aree di Azure Databricks.
canadacentral
centralus
francecentral
germanywestcentral
japaneast
norwayeast
southafricanorth
swedencentral
switzerlandnorth
switzerlandwest
uaenorth
westcentralus
westus3
australiaeast
brazilsouth
centralindia
eastus
eastus2
koreacentral
northcentralus
northeurope
southeastasia
ukwest
westeurope
westus