Dela via


Skapa ett Unity Catalog-metaarkiv

Den här artikeln visar hur du skapar ett Unity Catalog-metaarkiv och länkar det till arbetsytor.

Viktigt!

För arbetsytor som har aktiverats automatiskt för Unity Catalog är instruktionerna i den här artikeln onödiga. Databricks började aktivera nya arbetsytor för Unity Catalog automatiskt den 9 november 2023, med en distribution som fortsätter gradvis mellan konton. Du måste bara följa anvisningarna i den här artikeln om du har en arbetsyta och inte redan har ett metaarkiv i din arbetsyteregion. Information om huruvida det redan finns ett metaarkiv i din region finns i Automatisk aktivering av Unity Catalog.

Ett metaarkiv är den översta containern för data i Unity Catalog. Unity Catalog-metaarkiv registrerar metadata om skyddsbara objekt (till exempel tabeller, volymer, externa platser och resurser) och de behörigheter som styr åtkomsten till dem. Varje metaarkiv exponerar ett namnområde på tre nivåer (catalog.schema.table) med vilket data kan ordnas. Du måste ha ett metaarkiv för varje region där din organisation är verksam. Om du vill arbeta med Unity Catalog måste användarna vara på en arbetsyta som är kopplad till ett metaarkiv i deras region.

Om du vill skapa ett metaarkiv gör du följande:

  1. I ditt Azure-konto kan du också skapa en lagringsplats för lagring på metaarkivnivå för hanterade tabeller och volymer.

    Information som hjälper dig att avgöra om du behöver lagring på metaarkivnivå finns i (Valfritt) Skapa lagring på metaarkivnivå och Data är fysiskt avgränsade i lagringen.

  2. I ditt Azure-konto skapar du en hanterad Azure-identitet eller tjänstens huvudnamn som ger åtkomst till lagringsplatsen.

  3. I Azure Databricks skapar du metaarkivet, kopplar lagringsplatsen och tilldelar arbetsytor till metaarkivet.

Kommentar

Förutom de metoder som beskrivs i den här artikeln kan du också skapa ett metaarkiv med hjälp av Databricks Terraform-providern, särskilt databricks_metastore resursen. Om du vill aktivera Unity Catalog för åtkomst till metaarkivet använder du databricks_metastore_data_access. Om du vill länka arbetsytor till ett metaarkiv använder du databricks_metastore_assignment.

Innan du börjar

Innan du börjar bör du bekanta dig med de grundläggande begreppen i Unity Catalog, inklusive metaarkiv och hanterad lagring. Se Vad är Unity Catalog?.

Du bör också bekräfta att du uppfyller följande krav för alla installationssteg:

  • Du måste vara administratör för Azure Databricks-kontot.

    Den första Azure Databricks-kontoadministratören måste vara global administratör för Microsoft Entra-ID vid den tidpunkt då de först loggar in på Azure Databricks-kontokonsolen. Vid första inloggningen blir användaren administratör för Azure Databricks-kontot och behöver inte längre rollen Global administratör för Microsoft Entra-ID för att få åtkomst till Azure Databricks-kontot. Den första kontoadministratören kan tilldela användare i Microsoft Entra ID-klientorganisationen som ytterligare kontoadministratörer (som själva kan tilldela fler kontoadministratörer). Ytterligare kontoadministratörer kräver inte specifika roller i Microsoft Entra-ID.

  • De arbetsytor som du kopplar till metaarkivet måste finnas i Azure Databricks Premium-planen.

  • Om du vill konfigurera rotlagring på metaarkivnivå måste du ha behörighet att skapa följande i din Azure-klientorganisation:

Steg 1 (valfritt): Skapa en lagringscontainer för hanterad lagring på metaarkivnivå

I det här steget, som är valfritt, skapar du ett lagringskonto och en container för att lagra hanterade tabell- och volymdata på metaarkivnivå. Information om huruvida du behöver lagring på metaarkivnivå finns i (Valfritt) Skapa lagring på metaarkivnivå.

  1. Skapa ett lagringskonto för Azure Data Lake Storage Gen2.

    Det här lagringskontot innehåller hanterade Unity Catalog-tabeller och volymer. Detta måste vara ett Azure Data Lake Storage Gen2-konto i samma region som dina Azure Databricks-arbetsytor. Se Skapa ett lagringskonto som ska användas med Azure Data Lake Storage Gen2.

  2. Skapa en lagringscontainer som innehåller dina hanterade tabeller och volymdata på metaarkivnivå.

    Du kan bara skapa ett metaarkiv per region. Du måste använda samma region för metaarkivet och lagringscontainern.

    Den här lagringsplatsen på metaarkivnivå kan åsidosättas på katalog- och schemanivå. Se Ange en hanterad lagringsplats i Unity Catalog.

    Anteckna ADLSv2-URI:n för containern, som har följande format:

    abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
    

    I stegen nedan ersätter du <storage-container> med den här URI:n.

Steg 2 (valfritt): Skapa en hanterad identitet för åtkomst till den hanterade lagringsplatsen

I det här steget, som endast krävs om du slutfört steg 1, skapar du en Azure Databricks-åtkomstanslutning som innehåller en hanterad identitet och ger den åtkomst till lagringscontainern.

Följ anvisningarna i Använda Azure-hanterade identiteter i Unity Catalog för att få åtkomst till lagring.

Kommentar

Du kan använda antingen en hanterad Azure-identitet eller ett huvudnamn för tjänsten som den identitet som ger åtkomst till metaarkivets lagringscontainer. Databricks rekommenderar starkt hanterade identiteter eftersom de inte kräver att du underhåller autentiseringsuppgifter eller roterar hemligheter, och de låter dig ansluta till ett Azure Data Lake Storage Gen2-konto som skyddas av en lagringsbrandvägg. Om du vill använda tjänstens huvudnamn kan du läsa Skapa hanterad lagring i Unity Catalog med hjälp av tjänstens huvudnamn (äldre).

Steg 3: Skapa metaarkivet och bifoga en arbetsyta

Varje Azure Databricks-region kräver ett eget Unity Catalog-metaarkiv.

Du skapar ett metaarkiv för varje region där din organisation är verksam. Du kan länka vart och ett av dessa regionala metaarkiv till valfritt antal arbetsytor i den regionen. Varje länkad arbetsyta har samma vy över data i metaarkivet och dataåtkomstkontroll kan hanteras över arbetsytor. Du kan komma åt data i andra metaarkiv med deltadelning.

Om du väljer att skapa lagring på metaarkivnivå använder metaarkivet den lagringscontainer och azure-hanterade identitet som du skapade i föregående steg.

Så här skapar du ett metaarkiv:

  1. Om du väljer att skapa lagring på metaarkivnivå kontrollerar du att du har sökvägen till lagringscontainern och resurs-ID:t för Azure Databricks-åtkomstanslutningen som du skapade i föregående uppgift.

  2. Logga in på din arbetsyta som kontoadministratör.

  3. Klicka på ditt användarnamn i det övre fältet på Azure Databricks-arbetsytan och välj Hantera konto.

  4. Logga in på Azure Databricks-kontokonsolen.

  5. Klicka på Katalogikon Katalog.

  6. Klicka på Skapa metaarkiv.

  7. Ange följande:

    • Namn på metaarkivet.

    • Region där metaarkivet ska distribueras.

      Detta måste finnas i samma region som de arbetsytor som du vill använda för att komma åt data. Om du väljer att skapa en lagringscontainer för lagring på metaarkivnivå måste den regionen också vara densamma.

    • (Valfritt) ADLS Gen 2-sökväg: Ange sökvägen till den lagringscontainer som du ska använda som rotlagring för metaarkivet.

      Prefixet abfss:// läggs till automatiskt.

    • (Valfritt) Åtkomstanslutnings-ID: Ange Azure Databricks-åtkomstanslutningsappens resurs-ID i formatet:

      /subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
      
  8. Klicka på Skapa.

  9. När du uppmanas till det väljer du arbetsytor som ska länkas till metaarkivet.

    Mer information finns i Aktivera en arbetsyta för Unity Catalog.

  10. Överför administratörsrollen för metaarkivet till en grupp.

    Den användare som skapar ett metaarkiv är dess ägare, även kallad metaarkivadministratör. Metaarkivadministratören kan skapa objekt på den översta nivån i metaarkivet, till exempel kataloger, och kan hantera åtkomst till tabeller och andra objekt. Databricks rekommenderar att du omtilldelar administratörsrollen för metaarkivet till en grupp. Se Tilldela en metaarkivadministratör.

  11. Aktivera Azure Databricks-hantering av uppladdningar till hanterade volymer.

    Azure Databricks använder resursdelning mellan ursprung (CORS) för att ladda upp data till hanterade volymer i Unity Catalog. Se Konfigurera Unity Catalog-lagringskonto för CORS.

Nästa steg