Kopieren von Daten mit einer Copy-Aktivität
In Data Pipeline können Sie die Copy-Aktivität verwenden, um Daten zwischen lokalen Datenspeichern und Clouddatenspeichern zu kopieren.
Nach dem Kopieren können Sie andere Aktivitäten verwenden, um die Daten weiter zu transformieren und zu analysieren. Sie können die Kopieraktivität auch zum Veröffentlichen von Transformations- und Analyseergebnissen verwenden, um sie für Business Intelligence (BI) und Anwendungen zu nutzen.
Um Daten aus einer Quelle in ein Ziel zu kopieren, führt der Dienst, der die Copy-Aktivität ausführt, die folgenden Schritte aus:
- Er liest Daten aus einem Quelldatenspeicher.
- Er führt die Serialisierung/Deserialisierung, Komprimierung/Dekomprimierung, Spaltenzuordnung usw. durch. Er führt diese Vorgänge basierend auf der Konfiguration aus.
- Er schreibt Daten in den Zieldatenspeicher.
Voraussetzungen
Um zu beginnen, müssen die folgenden Voraussetzungen erfüllt sein:
Ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement. Sie können kostenlos ein Konto erstellen.
Stellen Sie sicher, dass Sie über einen für Microsoft Fabric aktivierten Arbeitsbereich verfügen.
Hinzufügen einer Copy-Aktivität mit dem Kopier-Assistenten
Führen Sie die folgenden Schritte aus, um Ihre Copy-Aktivität mithilfe des Kopier-Assistenten einzurichten.
Beginnen mit dem Kopier-Assistenten
Öffnen Sie eine vorhandene Datenpipeline, oder erstellen Sie eine neue Datenpipeline.
Wählen Sie Daten kopieren auf dem Canvas aus, um den Kopier-Assistenten für erste Schritte zu öffnen. Alternativ können Sie in der Dropdownliste Daten kopieren auf der Registerkarte Aktivitäten im Menüband die Option Kopier-Assistent verwenden auswählen.
Konfigurieren der Quelle
Wählen Sie einen Datenquellentyp aus der Kategorie aus. Sie verwenden Azure Blob Storage im Beispiel. Wählen Sie Azure Blob Storage aus, und klicken Sie dann auf Weiter.
Stellen Sie eine Verbindung mit Ihrer Datenquelle her, indem Sie Neue Verbindung erstellen auswählen.
Nachdem Sie neue Verbindung erstellen ausgewählt haben, geben Sie die erforderlichen Verbindungsinformationen ein, und wählen Sie dann Weiter aus. Ausführliche Informationen zur Verbindungserstellung für jeden Datenquellentyp finden Sie im Artikel zum jeweiligen Connector.
Wenn Sie über vorhandene Verbindungen verfügen, können Sie Vorhandene Verbindung auswählen und Ihre Verbindung dann in der Dropdownliste auswählen.
Wählen Sie die Datei oder den Ordner aus, die bzw. der in diesem Quellkonfigurationsschritt kopiert werden soll, und wählen Sie dann Weiter aus.
Konfigurieren des Ziels
Wählen Sie einen Datenquellentyp aus der Kategorie aus. Sie verwenden Azure Blob Storage im Beispiel. Sie können entweder eine neue Verbindung erstellen, die mit einem neuen Azure Blob Storage-Konto verknüpft ist, indem Sie die Schritte im vorherigen Abschnitt ausführen, oder eine vorhandene Verbindung aus der Verbindungsdropdownliste verwenden. Die Funktionen Verbindung testen und Bearbeiten stehen für jede ausgewählte Verbindung zur Verfügung.
Konfigurieren Sie Ihre Quelldaten, und ordnen Sie sie Ihrem Ziel zu. Wählen Sie dann Weiter aus, um ihre Zielkonfigurationen abzuschließen.
Hinweis
Sie können nur ein einziges lokales Daten-Gateway innerhalb desselben Kopiervorgangs verwenden. Wenn sowohl Quelle als auch Senke lokale Datenquellen sind, müssen sie denselben Gateway verwenden. Um Daten zwischen lokalen Datenquellen mit verschiedenen Gateways zu verschieben, müssen Sie die Daten über das erste Gateway in eine dazwischen liegende Cloud-Quelle in einem Kopiervorgang kopieren. Dann können Sie einen weiteren Kopiervorgang verwenden, um sie von der zwischengeschalteten Cloud-Quelle über den zweiten Gateway zu kopieren.
Überprüfen und Erstellen Ihrer Copy-Aktivität
Überprüfen Sie die Einstellungen Ihrer Copy-Aktivität in den vorherigen Schritten, und wählen Sie OK aus, um den Vorgang abzuschließen. Sie können auch zu den vorherigen Schritten zurückkehren, um Ihre Einstellungen bei Bedarf im Tool zu bearbeiten.
Nach Abschluss des Vorgangs wird die Copy-Aktivität Ihrer Datenpipelinecanvas hinzugefügt. Alle Einstellungen, einschließlich erweiterter Einstellungen für diese Copy-Aktivität, sind unter den Registerkarten verfügbar, wenn diese ausgewählt sind.
Jetzt können Sie entweder Ihre Datenpipeline mit dieser einzelnen Copy-Aktivität speichern oder Ihre Datenpipeline weiter entwerfen.
Direktes Hinzufügen einer Copy-Aktivität
Führen Sie die folgenden Schritte aus, um eine Copy-Aktivität direkt hinzuzufügen.
Hinzufügen einer Copy-Aktivität
Öffnen Sie eine vorhandene Datenpipeline, oder erstellen Sie eine neue Datenpipeline.
Fügen Sie eine Copy-Aktivität hinzu, indem Sie entweder Pipelineaktivität hinzufügen>Copy-Aktivität oder Daten kopieren>Zu Canvas hinzufügen unter der Registerkarte Aktivitäten auswählen.
Konfigurieren Ihrer allgemeinen Einstellungen auf der Registerkarte „Allgemein“
Informationen zum Konfigurieren Ihrer allgemeinen Einstellungen finden Sie unter Allgemein.
Konfigurieren der Quelle auf der Registerkarte „Quelle“
Wählen Sie neben der Verbindung die Option + Neu aus, um eine Verbindung mit Ihrer Datenquelle zu erstellen.
Wählen Sie im Popupfenster den Datenquellentyp aus. Sie verwenden Azure SQL-Datenbank als Beispiel. Wählen Sie Azure SQL-Datenbank und dann Weiter aus.
Die Navigation erfolgt zur Verbindungserstellungsseite. Geben Sie die erforderlichen Verbindungsinformationen in den Bereich ein, und wählen Sie dann Erstellen aus. Ausführliche Informationen zur Verbindungserstellung für jeden Datenquellentyp finden Sie im Artikel zum jeweiligen Connector.
Sobald die Verbindung erfolgreich erstellt wurde, gelangen Sie zurück zur Datenpipelineseite. Wählen Sie dann Aktualisieren aus, um die Verbindung abzurufen, die Sie aus der Dropdownliste erstellt haben. Sie können auch eine vorhandene Verbindung von Azure SQL-Datenbank direkt aus der Dropdownliste auswählen, wenn Sie diese bereits erstellt haben. Die Funktionen Verbindung testen und Bearbeiten stehen für jede ausgewählte Verbindung zur Verfügung. Wählen Sie dann unter Verbindungstyp die Option Azure SQL-Datenbank aus.
Geben Sie eine zu kopierende Tabelle an. Wählen Sie Vorschau der Daten aus, um eine Vorschau Ihrer Quelltabelle anzuzeigen. Sie können auch Abfrage und Gespeicherte Prozedur verwenden, um Daten aus Ihrer Quelle zu lesen.
Erweitern Sie Erweitert, um erweiterte Einstellungen anzuzeigen.
Konfigurieren Ihres Ziels auf der Registerkarte „Ziel“
Wählen Sie Ihren Zieltyp aus. Es kann sich entweder um Ihren internen erstklassigen Datenspeicher aus Ihrem Arbeitsbereich (z. B. Lakehouse) oder um Ihre externen Datenspeicher handeln. Sie verwenden Lakehouse als Beispiel.
Wählen Sie Lakehouse als Datenspeichertyp des Arbeitsbereichs aus. Wählen Sie + Neu aus, und navigieren Sie zur Erstellungsseite von Lakehouse. Geben Sie Ihren Lakehouse-Namen an, und wählen Sie dann Erstellen aus.
Sobald die Verbindung erfolgreich erstellt wurde, gelangen Sie zurück zur Datenpipelineseite. Wählen Sie dann Aktualisieren aus, um die Verbindung abzurufen, die Sie aus der Dropdownliste erstellt haben. Sie können auch eine vorhandene Lakehouse-Verbindung direkt aus der Dropdownliste auswählen, wenn Sie diese bereits erstellt haben.
Geben Sie eine Tabelle an, oder richten Sie den Dateipfad ein, um die Datei oder den Ordner als Ziel zu definieren. Wählen Sie hier Tabellen aus, und geben Sie eine Tabelle zum Schreiben von Daten an.
Erweitern Sie Erweitert, um erweiterte Einstellungen anzuzeigen.
Jetzt können Sie entweder Ihre Datenpipeline mit dieser einzelnen Copy-Aktivität speichern oder Ihre Datenpipeline weiter entwerfen.
Konfigurieren der Zuordnungen auf der Registerkarte „Zuordnung“
Wenn der von Ihnen angewendete Connector Zuordnung unterstützt, können Sie zur Registerkarte Zuordnung wechseln, um Ihre Zuordnung zu konfigurieren.
Wählen Sie Schemas importieren aus, um Ihr Datenschema zu importieren.
Sie können erkennen, dass die automatische Zuordnung angezeigt wird. Geben Sie die Quell- und die Zielspalte an. Wenn Sie eine neue Tabelle im Ziel erstellen, können Sie den Namen der Zielspalte hier anpassen. Wenn Sie Daten in die vorhandene Zieltabelle schreiben möchten, können Sie den Namen der vorhandenen Zielspalte nicht ändern. Sie können auch den Typ der Quell- und Zielspalten anzeigen.
Außerdem können Sie + Neue Zuordnung auswählen, um eine neue Zuordnung hinzuzufügen, Löschen, um alle Zuordnungseinstellungen zu löschen, und Zurücksetzen, um alle Quellspalten der Zuordnung zurückzusetzen.
Konfigurieren der anderen Einstellungen auf der Registerkarte „Einstellungen“
Die Registerkarte Einstellungen enthält die Einstellungen für Leistung, Staging usw.
In der folgenden Tabelle werden die einzelnen Einstellungen beschrieben.
Einstellung | Beschreibung | JSON-Skripteigenschaft |
---|---|---|
Intelligente Durchsatzoptimierung | Geben Sie Folgendes an, um den Durchsatz zu optimieren. Es gibt folgende Auswahlmöglichkeiten: • Automatisch • Standard • Ausgeglichen • Maximal Wenn Sie Automatisch auswählen, wird die optimale Einstellung basierend auf Ihrem Quell-Ziel-Paar und Datenmuster dynamisch angewendet. Sie können auch Ihren Durchsatz anpassen, und der benutzerdefinierte Wert kann zwischen 2 und 256 liegen, wobei ein höherer Wert größere Gewinne mit sich bringt. |
dataIntegrationUnits |
Parallelitätsgrad für Kopiervorgänge | Geben Sie den Parallelitätsgrad an, der beim Laden von Daten verwendet werden soll. | parallelCopies |
Fehlertoleranz | Wenn Sie diese Option auswählen, können Sie einige Fehler ignorieren, die während des Kopiervorgangs auftreten. Beispiel: Inkompatible Zeilen zwischen Quell- und Zielspeicher, Datei, die während der Datenverschiebung gelöscht wird usw. | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
Aktivieren der Protokollierung | Bei Auswahl dieser Option können Sie kopierte Dateien, übersprungene Dateien und Zeilen protokollieren. | / |
Staging aktivieren | Geben Sie an, ob Daten über einen Stagingzwischenspeicher kopiert werden sollen. Aktivieren Sie Staging nur für die vorteilhaften Szenarien. | enableStaging |
Datenspeichertyp | Wenn Sie Staging aktivieren, können Sie Arbeitsbereich und Extern als Datenspeichertyp auswählen. | / |
Für Arbeitsbereich | ||
Arbeitsbereich | Geben Sie an, dass der integrierte Stagingspeicher verwendet werden soll. | / |
Für Extern | ||
Stagingkontoverbindung | Geben Sie die Verbindung eines Azure Blob Storage oder Azure Data Lake Storage Gen2 an, das sich auf die Instanz von Storage bezieht, die Sie als Staging-Zwischenspeicher verwenden. Erstellen Sie eine Stagingverbindung, wenn sie nicht vorhanden ist. | Verbindung (unter externalReferences ) |
Speicherpfad | Geben Sie den gewünschten Pfad für die bereitgestellten Daten an. Wenn Sie keinen Pfad angeben, erstellt der Dienst einen Container zum Speichern der temporären Daten. Geben Sie nur dann einen Pfad an, wenn Sie Storage mit einer Shared Access Signature verwenden oder sich die temporären Daten an einem bestimmten Speicherort befinden müssen. | path |
Komprimierung aktivieren | Gibt an, ob die Daten komprimiert werden sollen, bevor sie an das Ziel kopiert werden. Durch diese Einstellung wird die Menge der übertragenen Daten reduziert. | enableCompression |
Preserve | Legen Sie fest, ob Metadaten/Zugriffssteuerungsliste beim Kopieren von Daten beibehalten werden sollen. | Reservat |
Hinweis
Wenn Sie das gestaffelte Kopieren mit aktivierter Komprimierung verwenden, wird die Dienstprinzipalauthentifizierung für das Staging einer Blobverbindung nicht unterstützt.
Konfigurieren von Parametern in einer Kopieraktivität
Parameter können verwendet werden, um das Verhalten einer Pipeline und deren Aktivitäten zu steuern. Sie können Dynamischen Inhalt hinzufügen verwenden, um Parameter für Ihre Kopieraktivitätseigenschaften anzugeben. Nehmen wir die Angabe von Lakehouse/Data Warehouse/KQL-Datenbank als Beispiel für die Verwendung.
Wählen Sie in Ihrer Quelle oder Ihrem Ziel nach Auswahl von Arbeitsbereich als Datenspeichertyp und Angabe von Lakehouse/Data Warehouse/KQL-Datenbank als Arbeitsbereichsdatenspeichertyp den Eintrag Dynamischen Inhalt hinzufügen in der Dropdownliste für Lakehouse, Data Warehouse oder KQL-Datenbank aus.
Klicken Sie im Popup-Bereich Dynamischen Inhalt hinzufügen auf der Registerkarte Parameter auf +.
Geben Sie den Namen für den Parameter an, und geben Sie bei Bedarf einen Standardwert an. Sie können den Wert für den Parameter aber auch angeben, nachdem Sie Ausführen in der Pipeline ausgewählt haben.
Beachten Sie, dass der Parameterwert die Objekt-ID für Lakehouse/Data Warehouse/KQL-Datenbank sein sollte. Um die Objekt-ID für Lakehouse/Data Warehouse/KQL-Datenbank abzurufen, öffnen Sie Ihr(e) Lakehouse/Data Warehouse/KQL-Datenbank in Ihrem Arbeitsbereich. Die ID wird nach
/lakehouses/
oder/datawarehouses/
oder/databases/
in Ihrer URL angezeigt.Lakehouse-Objekt-ID:
Data Warehouse-Objekt-ID:
KQL-Datenbank-Objekt-ID:
Wählen Sie Speichern aus, um zum Bereich Dynamischen Inhalt hinzufügen zurückzukehren. Wählen Sie dann Ihren Parameter aus, damit er im Ausdrucksfeld angezeigt wird. Klicken Sie anschließend auf OK. Sie kehren zur Pipelineseite zurück und können sehen, dass der Parameterausdruck nach Lakehouse-Objekt-ID/Data Warehouse-Objekt-ID/KQL-Datenbank-Objekt-ID angegeben wird.