Freigeben über


Kopieren von Daten mit einer Copy-Aktivität

In Data Pipeline können Sie die Copy-Aktivität verwenden, um Daten zwischen lokalen Datenspeichern und Clouddatenspeichern zu kopieren.

Nach dem Kopieren können Sie andere Aktivitäten verwenden, um die Daten weiter zu transformieren und zu analysieren. Sie können die Kopieraktivität auch zum Veröffentlichen von Transformations- und Analyseergebnissen verwenden, um sie für Business Intelligence (BI) und Anwendungen zu nutzen.

Um Daten aus einer Quelle in ein Ziel zu kopieren, führt der Dienst, der die Copy-Aktivität ausführt, die folgenden Schritte aus:

  1. Er liest Daten aus einem Quelldatenspeicher.
  2. Er führt die Serialisierung/Deserialisierung, Komprimierung/Dekomprimierung, Spaltenzuordnung usw. durch. Er führt diese Vorgänge basierend auf der Konfiguration aus.
  3. Er schreibt Daten in den Zieldatenspeicher.

Voraussetzungen

Um zu beginnen, müssen die folgenden Voraussetzungen erfüllt sein:

  • Ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement. Sie können kostenlos ein Konto erstellen.

  • Stellen Sie sicher, dass Sie über einen für Microsoft Fabric aktivierten Arbeitsbereich verfügen.

Hinzufügen einer Copy-Aktivität mit dem Kopier-Assistenten

Führen Sie die folgenden Schritte aus, um Ihre Copy-Aktivität mithilfe des Kopier-Assistenten einzurichten.

Beginnen mit dem Kopier-Assistenten

  1. Öffnen Sie eine vorhandene Datenpipeline, oder erstellen Sie eine neue Datenpipeline.

  2. Wählen Sie Daten kopieren auf dem Canvas aus, um den Kopier-Assistenten für erste Schritte zu öffnen. Alternativ können Sie in der Dropdownliste Daten kopieren auf der Registerkarte Aktivitäten im Menüband die Option Kopier-Assistent verwenden auswählen.

    Screenshot: Optionen zum Öffnen des Kopier-Assistenten.

Konfigurieren der Quelle

  1. Wählen Sie einen Datenquellentyp aus der Kategorie aus. Sie verwenden Azure Blob Storage im Beispiel. Wählen Sie Azure Blob Storage aus, und klicken Sie dann auf Weiter.

    Screenshot: Bildschirm „Datenquelle auswählen“.

  2. Stellen Sie eine Verbindung mit Ihrer Datenquelle her, indem Sie Neue Verbindung erstellen auswählen.

    Screenshot: Auswählen der neuen Verbindung.

    Nachdem Sie neue Verbindung erstellen ausgewählt haben, geben Sie die erforderlichen Verbindungsinformationen ein, und wählen Sie dann Weiter aus. Ausführliche Informationen zur Verbindungserstellung für jeden Datenquellentyp finden Sie im Artikel zum jeweiligen Connector.

    Wenn Sie über vorhandene Verbindungen verfügen, können Sie Vorhandene Verbindung auswählen und Ihre Verbindung dann in der Dropdownliste auswählen.

    Screenshot: Vorhandene Verbindung.

  3. Wählen Sie die Datei oder den Ordner aus, die bzw. der in diesem Quellkonfigurationsschritt kopiert werden soll, und wählen Sie dann Weiter aus.

    Screenshot: Auswählen der zu kopierenden Daten.

Konfigurieren des Ziels

  1. Wählen Sie einen Datenquellentyp aus der Kategorie aus. Sie verwenden Azure Blob Storage im Beispiel. Sie können entweder eine neue Verbindung erstellen, die mit einem neuen Azure Blob Storage-Konto verknüpft ist, indem Sie die Schritte im vorherigen Abschnitt ausführen, oder eine vorhandene Verbindung aus der Verbindungsdropdownliste verwenden. Die Funktionen Verbindung testen und Bearbeiten stehen für jede ausgewählte Verbindung zur Verfügung.

    Screenshot: Auswählen von Azure Blob Storage.

  2. Konfigurieren Sie Ihre Quelldaten, und ordnen Sie sie Ihrem Ziel zu. Wählen Sie dann Weiter aus, um ihre Zielkonfigurationen abzuschließen.

    Screenshot: Bildschirm „Ziel zuordnen“.

    Screenshot: Herstellen einer Verbindung mit dem Datenziel.

    Hinweis

    Sie können nur ein einziges lokales Daten-Gateway innerhalb desselben Kopiervorgangs verwenden. Wenn sowohl Quelle als auch Senke lokale Datenquellen sind, müssen sie denselben Gateway verwenden. Um Daten zwischen lokalen Datenquellen mit verschiedenen Gateways zu verschieben, müssen Sie die Daten über das erste Gateway in eine dazwischen liegende Cloud-Quelle in einem Kopiervorgang kopieren. Dann können Sie einen weiteren Kopiervorgang verwenden, um sie von der zwischengeschalteten Cloud-Quelle über den zweiten Gateway zu kopieren.

Überprüfen und Erstellen Ihrer Copy-Aktivität

  1. Überprüfen Sie die Einstellungen Ihrer Copy-Aktivität in den vorherigen Schritten, und wählen Sie OK aus, um den Vorgang abzuschließen. Sie können auch zu den vorherigen Schritten zurückkehren, um Ihre Einstellungen bei Bedarf im Tool zu bearbeiten.

    Screenshot: Bildschirm „Überprüfen und erstellen“.

Nach Abschluss des Vorgangs wird die Copy-Aktivität Ihrer Datenpipelinecanvas hinzugefügt. Alle Einstellungen, einschließlich erweiterter Einstellungen für diese Copy-Aktivität, sind unter den Registerkarten verfügbar, wenn diese ausgewählt sind.

Screenshot: Copy-Aktivität in der Datenpipelinecanvas.

Jetzt können Sie entweder Ihre Datenpipeline mit dieser einzelnen Copy-Aktivität speichern oder Ihre Datenpipeline weiter entwerfen.

Direktes Hinzufügen einer Copy-Aktivität

Führen Sie die folgenden Schritte aus, um eine Copy-Aktivität direkt hinzuzufügen.

Hinzufügen einer Copy-Aktivität

  1. Öffnen Sie eine vorhandene Datenpipeline, oder erstellen Sie eine neue Datenpipeline.

  2. Fügen Sie eine Copy-Aktivität hinzu, indem Sie entweder Pipelineaktivität hinzufügen>Copy-Aktivität oder Daten kopieren>Zu Canvas hinzufügen unter der Registerkarte Aktivitäten auswählen.

    Screenshot: Zwei Möglichkeiten zum Hinzufügen einer Copy-Aktivität.

Konfigurieren Ihrer allgemeinen Einstellungen auf der Registerkarte „Allgemein“

Informationen zum Konfigurieren Ihrer allgemeinen Einstellungen finden Sie unter Allgemein.

Konfigurieren der Quelle auf der Registerkarte „Quelle“

  1. Wählen Sie neben der Verbindung die Option + Neu aus, um eine Verbindung mit Ihrer Datenquelle zu erstellen.

    Screenshot: Auswählen von „Neu“.

    1. Wählen Sie im Popupfenster den Datenquellentyp aus. Sie verwenden Azure SQL-Datenbank als Beispiel. Wählen Sie Azure SQL-Datenbank und dann Weiter aus.

      Screenshot: Auswählen der Datenquelle.

    2. Die Navigation erfolgt zur Verbindungserstellungsseite. Geben Sie die erforderlichen Verbindungsinformationen in den Bereich ein, und wählen Sie dann Erstellen aus. Ausführliche Informationen zur Verbindungserstellung für jeden Datenquellentyp finden Sie im Artikel zum jeweiligen Connector.

      Screenshot: Seite „Neue Verbindung“.

    3. Sobald die Verbindung erfolgreich erstellt wurde, gelangen Sie zurück zur Datenpipelineseite. Wählen Sie dann Aktualisieren aus, um die Verbindung abzurufen, die Sie aus der Dropdownliste erstellt haben. Sie können auch eine vorhandene Verbindung von Azure SQL-Datenbank direkt aus der Dropdownliste auswählen, wenn Sie diese bereits erstellt haben. Die Funktionen Verbindung testen und Bearbeiten stehen für jede ausgewählte Verbindung zur Verfügung. Wählen Sie dann unter Verbindungstyp die Option Azure SQL-Datenbank aus.

      Screenshot: Aktualisieren der Verbindung.

  2. Geben Sie eine zu kopierende Tabelle an. Wählen Sie Vorschau der Daten aus, um eine Vorschau Ihrer Quelltabelle anzuzeigen. Sie können auch Abfrage und Gespeicherte Prozedur verwenden, um Daten aus Ihrer Quelle zu lesen.

    Screenshot: Einstellungsoptionen der Quelltabelle.

  3. Erweitern Sie Erweitert, um erweiterte Einstellungen anzuzeigen.

    Screenshot: „Erweiterte Einstellungen“.

Konfigurieren Ihres Ziels auf der Registerkarte „Ziel“

  1. Wählen Sie Ihren Zieltyp aus. Es kann sich entweder um Ihren internen erstklassigen Datenspeicher aus Ihrem Arbeitsbereich (z. B. Lakehouse) oder um Ihre externen Datenspeicher handeln. Sie verwenden Lakehouse als Beispiel.

    Screenshot: Auswählen des Zieltyps.

  2. Wählen Sie Lakehouse als Datenspeichertyp des Arbeitsbereichs aus. Wählen Sie + Neu aus, und navigieren Sie zur Erstellungsseite von Lakehouse. Geben Sie Ihren Lakehouse-Namen an, und wählen Sie dann Erstellen aus.

    Screenshot: Lakehouse-Erstellung.

  3. Sobald die Verbindung erfolgreich erstellt wurde, gelangen Sie zurück zur Datenpipelineseite. Wählen Sie dann Aktualisieren aus, um die Verbindung abzurufen, die Sie aus der Dropdownliste erstellt haben. Sie können auch eine vorhandene Lakehouse-Verbindung direkt aus der Dropdownliste auswählen, wenn Sie diese bereits erstellt haben.

    Screenshot: Auswählen der Verbindung.

  4. Geben Sie eine Tabelle an, oder richten Sie den Dateipfad ein, um die Datei oder den Ordner als Ziel zu definieren. Wählen Sie hier Tabellen aus, und geben Sie eine Tabelle zum Schreiben von Daten an.

    Screenshot: Tabelleneinstellungen.

  5. Erweitern Sie Erweitert, um erweiterte Einstellungen anzuzeigen.

    Screenshot: „Erweiterte Optionen“.

Jetzt können Sie entweder Ihre Datenpipeline mit dieser einzelnen Copy-Aktivität speichern oder Ihre Datenpipeline weiter entwerfen.

Konfigurieren der Zuordnungen auf der Registerkarte „Zuordnung“

Wenn der von Ihnen angewendete Connector Zuordnung unterstützt, können Sie zur Registerkarte Zuordnung wechseln, um Ihre Zuordnung zu konfigurieren.

  1. Wählen Sie Schemas importieren aus, um Ihr Datenschema zu importieren.

    Screenshot: Zuordnungseinstellungen 1.

  2. Sie können erkennen, dass die automatische Zuordnung angezeigt wird. Geben Sie die Quell- und die Zielspalte an. Wenn Sie eine neue Tabelle im Ziel erstellen, können Sie den Namen der Zielspalte hier anpassen. Wenn Sie Daten in die vorhandene Zieltabelle schreiben möchten, können Sie den Namen der vorhandenen Zielspalte nicht ändern. Sie können auch den Typ der Quell- und Zielspalten anzeigen.

    Screenshot: Zuordnungseinstellungen 2.

Außerdem können Sie + Neue Zuordnung auswählen, um eine neue Zuordnung hinzuzufügen, Löschen, um alle Zuordnungseinstellungen zu löschen, und Zurücksetzen, um alle Quellspalten der Zuordnung zurückzusetzen.

Konfigurieren der anderen Einstellungen auf der Registerkarte „Einstellungen“

Die Registerkarte Einstellungen enthält die Einstellungen für Leistung, Staging usw.

Screenshot: Registerkarte „Einstellungen“.

In der folgenden Tabelle werden die einzelnen Einstellungen beschrieben.

Einstellung Beschreibung JSON-Skripteigenschaft
Intelligente Durchsatzoptimierung Geben Sie Folgendes an, um den Durchsatz zu optimieren. Es gibt folgende Auswahlmöglichkeiten:
Automatisch
Standard
Ausgeglichen
Maximal

Wenn Sie Automatisch auswählen, wird die optimale Einstellung basierend auf Ihrem Quell-Ziel-Paar und Datenmuster dynamisch angewendet. Sie können auch Ihren Durchsatz anpassen, und der benutzerdefinierte Wert kann zwischen 2 und 256 liegen, wobei ein höherer Wert größere Gewinne mit sich bringt.
dataIntegrationUnits
Parallelitätsgrad für Kopiervorgänge Geben Sie den Parallelitätsgrad an, der beim Laden von Daten verwendet werden soll. parallelCopies
Fehlertoleranz Wenn Sie diese Option auswählen, können Sie einige Fehler ignorieren, die während des Kopiervorgangs auftreten. Beispiel: Inkompatible Zeilen zwischen Quell- und Zielspeicher, Datei, die während der Datenverschiebung gelöscht wird usw. • enableSkipIncompatibleRow
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
Aktivieren der Protokollierung Bei Auswahl dieser Option können Sie kopierte Dateien, übersprungene Dateien und Zeilen protokollieren. /
Staging aktivieren Geben Sie an, ob Daten über einen Stagingzwischenspeicher kopiert werden sollen. Aktivieren Sie Staging nur für die vorteilhaften Szenarien. enableStaging
Datenspeichertyp Wenn Sie Staging aktivieren, können Sie Arbeitsbereich und Extern als Datenspeichertyp auswählen. /
Für Arbeitsbereich
Arbeitsbereich Geben Sie an, dass der integrierte Stagingspeicher verwendet werden soll. /
Für Extern
Stagingkontoverbindung Geben Sie die Verbindung eines Azure Blob Storage oder Azure Data Lake Storage Gen2 an, das sich auf die Instanz von Storage bezieht, die Sie als Staging-Zwischenspeicher verwenden. Erstellen Sie eine Stagingverbindung, wenn sie nicht vorhanden ist. Verbindung (unter externalReferences)
Speicherpfad Geben Sie den gewünschten Pfad für die bereitgestellten Daten an. Wenn Sie keinen Pfad angeben, erstellt der Dienst einen Container zum Speichern der temporären Daten. Geben Sie nur dann einen Pfad an, wenn Sie Storage mit einer Shared Access Signature verwenden oder sich die temporären Daten an einem bestimmten Speicherort befinden müssen. path
Komprimierung aktivieren Gibt an, ob die Daten komprimiert werden sollen, bevor sie an das Ziel kopiert werden. Durch diese Einstellung wird die Menge der übertragenen Daten reduziert. enableCompression
Preserve Legen Sie fest, ob Metadaten/Zugriffssteuerungsliste beim Kopieren von Daten beibehalten werden sollen. Reservat

Hinweis

Wenn Sie das gestaffelte Kopieren mit aktivierter Komprimierung verwenden, wird die Dienstprinzipalauthentifizierung für das Staging einer Blobverbindung nicht unterstützt.

Konfigurieren von Parametern in einer Kopieraktivität

Parameter können verwendet werden, um das Verhalten einer Pipeline und deren Aktivitäten zu steuern. Sie können Dynamischen Inhalt hinzufügen verwenden, um Parameter für Ihre Kopieraktivitätseigenschaften anzugeben. Nehmen wir die Angabe von Lakehouse/Data Warehouse/KQL-Datenbank als Beispiel für die Verwendung.

  1. Wählen Sie in Ihrer Quelle oder Ihrem Ziel nach Auswahl von Arbeitsbereich als Datenspeichertyp und Angabe von Lakehouse/Data Warehouse/KQL-Datenbank als Arbeitsbereichsdatenspeichertyp den Eintrag Dynamischen Inhalt hinzufügen in der Dropdownliste für Lakehouse, Data Warehouse oder KQL-Datenbank aus.

  2. Klicken Sie im Popup-Bereich Dynamischen Inhalt hinzufügen auf der Registerkarte Parameter auf +.

    Screenshot: Seite „Dynamische Inhalte hinzufügen“.

  3. Geben Sie den Namen für den Parameter an, und geben Sie bei Bedarf einen Standardwert an. Sie können den Wert für den Parameter aber auch angeben, nachdem Sie Ausführen in der Pipeline ausgewählt haben.

    Screenshot der Erstellung eines neuen Parameters.

    Beachten Sie, dass der Parameterwert die Objekt-ID für Lakehouse/Data Warehouse/KQL-Datenbank sein sollte. Um die Objekt-ID für Lakehouse/Data Warehouse/KQL-Datenbank abzurufen, öffnen Sie Ihr(e) Lakehouse/Data Warehouse/KQL-Datenbank in Ihrem Arbeitsbereich. Die ID wird nach /lakehouses/ oder /datawarehouses/ oder /databases/ in Ihrer URL angezeigt.

    • Lakehouse-Objekt-ID:

      Screenshot: Lakehouse-Objekt-ID

    • Data Warehouse-Objekt-ID:

      Screenshot der Data Warehouse-Objekt-ID.

    • KQL-Datenbank-Objekt-ID:

      Screenshot der KQL-Datenbankobjekt-ID.

  4. Wählen Sie Speichern aus, um zum Bereich Dynamischen Inhalt hinzufügen zurückzukehren. Wählen Sie dann Ihren Parameter aus, damit er im Ausdrucksfeld angezeigt wird. Klicken Sie anschließend auf OK. Sie kehren zur Pipelineseite zurück und können sehen, dass der Parameterausdruck nach Lakehouse-Objekt-ID/Data Warehouse-Objekt-ID/KQL-Datenbank-Objekt-ID angegeben wird.

    Screenshot der Parameterauswahl.