Dela via


Så här matar du in data med hjälp av Azure Data Factory i Azure Cosmos DB for PostgreSQL

GÄLLER FÖR: Azure Cosmos DB for PostgreSQL (drivs av Citus-databastillägget till PostgreSQL)

Azure Data Factory är en molnbaserad ETL - och dataintegreringstjänst. Det gör att du kan skapa datadrivna arbetsflöden för att flytta och transformera data i stor skala.

Med Data Factory kan du skapa och schemalägga datadrivna arbetsflöden (kallas pipelines) som matar in data från olika datalager. Pipelines kan köras lokalt, i Azure eller på andra molnleverantörer för analys och rapportering.

Data Factory har en datamottagare för Azure Cosmos DB for PostgreSQL. Med datamottagaren kan du ta med dina data (relationsfiler, NoSQL- och data lake-filer) till Azure Cosmos DB för PostgreSQL-tabeller för lagring, bearbetning och rapportering.

Dataflödesdiagram för Azure Data Factory.

Viktigt!

Data Factory stöder för närvarande inte privata slutpunkter för Azure Cosmos DB for PostgreSQL.

Data Factory för inmatning i realtid

Här är viktiga skäl att välja Azure Data Factory för att mata in data i Azure Cosmos DB för PostgreSQL:

  • Lätt att använda – Erbjuder en kodfri visuell miljö för orkestrering och automatisering av dataflytt.
  • Kraftfull – använder den fullständiga kapaciteten för underliggande nätverksbandbredd, upp till 5 GiB/s-dataflöde.
  • Inbyggda anslutningsappar – Integrerar alla dina datakällor med fler än 90 inbyggda anslutningsappar.
  • Kostnadseffektiv – Har stöd för en fullständigt hanterad serverlös molntjänst som skalar efter behov.

Steg för att använda Data Factory

I den här artikeln skapar du en datapipeline med hjälp av Användargränssnittet för Data Factory. Pipelinen i den här datafabriken kopierar data från Azure Blob Storage till en databas. En lista över datakällor som stöds som källor och mottagare finns i tabellen över datalager som stöds.

I Data Factory kan du använda aktiviteten Kopiera för att kopiera data mellan datalager som finns lokalt och i molnet till Azure Cosmos DB for PostgreSQL. Om du inte har använt Data Factory tidigare finns här en snabbguide om hur du kommer igång:

  1. När Data Factory har etablerats går du till din datafabrik och startar Azure Data Factory Studio. Du ser startsidan för Data Factory enligt följande bild:

    Skärmbild som visar landningssidan för Azure Data Factory.

  2. På startsidan för Azure Data Factory Studio väljer du Orchestrate.

    Skärmbild som visar sidan Orchestrate i Azure Data Factory.

  3. Under Egenskaper anger du ett namn för pipelinen.

  4. I verktygslådan Aktiviteter expanderar du kategorin Flytta och transformera och drar och släpper aktiviteten Kopiera data till pipelinedesignerns yta. Längst ned i designerfönstret går du till fliken Allmänt och anger ett namn för kopieringsaktiviteten.

    Skärmbild som visar en pipeline i Azure Data Factory.

  5. Konfigurera källa.

    1. På sidan Aktiviteter väljer du fliken Källa. Välj Ny om du vill skapa en källdatauppsättning.

    2. I dialogrutan Ny datauppsättning väljer du Azure Blob Storage och sedan Fortsätt.

    3. Välj formattypen för dina data och välj sedan Fortsätt.

    4. På sidan Ange egenskaper går du till Länkad tjänst och väljer Ny.

    5. På sidan Ny länkad tjänst anger du ett namn för den länkade tjänsten och väljer ditt lagringskonto i listan Lagringskontonamn .

      Skärmbild som visar hur du konfigurerar källa i Azure Data Factory.

    6. Under Testa anslutning väljer du Till filsökväg, anger containern och katalogen som du vill ansluta till och väljer sedan Testa anslutning.

    7. Spara konfigurationen genom att välja Skapa .

    8. På skärmen Ange egenskaper väljer du OK.

  6. Konfigurera mottagare.

    1. På sidan Aktiviteter väljer du fliken Mottagare. Välj Ny om du vill skapa en datauppsättning för mottagare.

    2. I dialogrutan Ny datauppsättning väljer du Azure Database for PostgreSQL och väljer sedan Fortsätt.

    3. På sidan Ange egenskaper går du till Länkad tjänst och väljer Ny.

    4. På sidan Ny länkad tjänst anger du ett namn för den länkade tjänsten och väljer Ange manuellt i metoden Kontoval.

    5. Ange klustrets koordinatornamn i fältet Fullständigt kvalificerat domännamn . Du kan kopiera koordinatorns namn från översiktssidan för ditt Azure Cosmos DB for PostgreSQL-kluster.

    6. Lämna standardport 5432 i fältet Port för direkt anslutning till koordinatorn eller ersätt den med port 6432 för att ansluta till den hanterade PgBouncer-porten.

    7. Ange databasnamnet i klustret och ange autentiseringsuppgifter för att ansluta till det.

    8. Välj SSL i listrutan Krypteringsmetod .

      Skärmbild som visar hur du konfigurerar mottagare i Azure Data Factory.

    9. Välj Testa anslutning längst ned i panelen för att verifiera mottagarkonfigurationen.

    10. Spara konfigurationen genom att välja Skapa .

    11. På skärmen Ange egenskaper väljer du OK.

    12. På fliken Mottagaresidan Aktiviteter väljer du Öppna bredvid listrutan Mottagare och väljer tabellnamnet i målklustret där du vill mata in data.

    13. Under Skrivmetod väljer du Kommandot Kopiera.

    Skärmbild som visar hur du väljer tabell- och kopieringskommandot.

  7. I verktygsfältet ovanför arbetsytan väljer du Verifiera för att verifiera pipelineinställningarna. Åtgärda eventuella fel, återskapa och kontrollera att pipelinen har verifierats.

  8. Välj Felsök i verktygsfältet för att köra pipelinen.

    Skärmbild som visar Felsökning och Körning i Azure Data Factory.

  9. När pipelinen kan köras väljer du Publicera alla i det översta verktygsfältet. Den här åtgärden publicerar entiteter (datauppsättningar och pipelines) som du har skapat till Data Factory.

Anropa en lagrad procedur i Data Factory

I vissa specifika scenarier kanske du vill anropa en lagrad procedur/funktion för att skicka aggregerade data från mellanlagringstabellen till sammanfattningstabellen. Data Factory erbjuder inte någon lagrad proceduraktivitet för Azure Cosmos DB för PostgreSQL, men som en lösning kan du använda uppslagsaktiviteten med en fråga för att anropa en lagrad procedur enligt nedan:

Skärmbild som visar hur du anropar en procedur i Azure Data Factory.

Nästa steg