Identifiera data
Azure Databricks tillhandahåller en uppsättning verktyg och produkter som förenklar identifieringen av datatillgångar som är tillgängliga via Databricks Data Intelligence Platform. Den här artikeln innehåller en översikt över hur du kan identifiera och förhandsgranska data som redan har konfigurerats för åtkomst på din arbetsyta.
- Information om hur du ansluter till datakällor finns i Ansluta till datakällor.
- Information om hur du får åtkomst till data på Databricks Marketplace finns i Vad är Databricks Marketplace?.
Ämnen i det här avsnittet fokuserar på att utforska dataobjekt och datafiler. Information om hur du arbetar med tillgångar som notebook-filer, SQL-frågor, bibliotek och modeller finns i Navigera på arbetsytan.
Om du vill ha vägledning om hur du genererar sammanfattningsstatistik för datauppsättningar eller andra uppgifter som är associerade med undersökande dataanalys (EDA) kan du läsa Undersökande dataanalys på Azure Databricks: Verktyg och tekniker.
Hur kan du identifiera datatillgångar?
Dataidentifieringsverktyg i Azure Databricks tillhör följande allmänna kategorier:
- AI-assisterad insikt, sammanfattning och sökning.
- Nyckelordssökning.
- Catalog utforskning med hjälp av användargränssnittet.
- Programmatisk lista och metadatautforskning.
Dataidentifieringsverktyg är optimerade för data som hanteras av Unity Catalog. Datatillgångar som inte har registrerats som Unity-Catalog objekt kanske inte kan identifieras med hjälp av några av dessa metoder.
Hitta data med hjälp av användargränssnittet
Catalog Explorer tillhandahåller verktyg för att utforska och styra datatillgångar. Du kommer åt Catalog Explorer med hjälp av ikonen Catalog i arbetsytans sidofält. Se Vad är Catalog Explorer?.
Notebook-filer och SQL-frågeredigeraren tillhandahåller också en catalog navigatör för att utforska databasobjekt. Klicka på ikonen Catalog i dessa gränssnitt för att expandera eller komprimera catalog navigatorn utan att lämna kodredigeraren.
När du har upptäckt en datamängd av intresse kan du använda fliken Insikter för att lära dig hur data används på din arbetsyta. Se Visa vanliga frågor och användare av en table.
Utforska data programmatiskt
Du kan använda kommandot SHOW
på alla databasobjekt för att identifiera tillgångar som är registrerade i Unity Catalog. Använd kommandot LIST
, det magiska kommandot %fs
eller Databricks Utilities för att list filer.
Se Utforska lagring och hitta datafiler och Utforska databasobjekt.
Granska datakommentar
Du kan granska kommentarer för att lära dig mer om innehållet i datauppsättningar som är tillgängliga i ditt lakehouse. Kommentarer kan set på dataobjekt som catalogs, scheman, tablesoch columns. Du kan visa kommentarer i Catalog Explorer eller med hjälp av kommandot DESCRIBE
för ett objekt.
Catalog Explorer kan ge AI-genererade kommentarer för tables, vilket gör det enkelt för datatillgångsägare att ge en omfattande översikt över datauppsättningar. Se Lägg till AI-genererade kommentarer i Unity Catalog-objekt.
Användare kan också ange kommentarer om tables och andra databasobjekt med markdown, som återges i Catalog Explorer. Se Lägga till kommentarer till data och AI-tillgångar.
Sök efter tables i ditt sjöhus
Du kan använda sökfältet i Azure Databricks för att hitta tables som är registrerade i Unity Catalog. Du kan antingen utföra en nyckelordssökning eller använda semantisk sökning för att hitta datauppsättningar eller columns som är relaterade till din sökfråga. Sökningen returnerar bara resultat för tables som du har behörighet att se. Sök efter recensioner table namn, column namn, table kommentarer och column kommentarer. Se Sök efter arbetsyteobjekt.