Erfassen von Event Hubs-Daten im Delta Lake-Format
In diesem Artikel wird erläutert, wie Sie den No-Code-Editor zum automatischen Erfassen von Streamingdaten in Event Hubs in einem Azure Data Lake Storage Gen2-Konto im Delta Lake-Format verwenden.
Voraussetzungen
- Ihre Azure Event Hubs- und Azure Data Lake Storage Gen2-Ressourcen müssen öffentlich zugänglich sein und dürfen sich nicht hinter einer Firewall oder in einem virtuellen Azure-Netzwerk befinden.
- Die Daten in Ihrer Event Hubs-Instanz müssen entweder im JSON-, CSV- oder Avro-Format serialisiert werden.
Konfigurieren eines Auftrags zum Aufzeichnen von Daten
Verwenden Sie die folgenden Schritte, um einen Stream Analytics-Auftrag zum Aufzeichnen von Daten in Azure Data Lake Storage Gen2 zu konfigurieren.
Navigieren Sie im Azure-Portal zu Ihrem Event Hub.
Wählen Sie Features>Daten verarbeiten aus, und klicken Sie auf der Karte Daten im Delta Lake-Format in ADLS Gen2 erfassen auf Start.
Alternativ dazu können Sie auch Features>Erfassen auswählen, unter „Format für die Serialisierung von Ausgabeereignissen“ auf die Option Delta Lake klicken und Datenerfassungskonfiguration starten auswählen.
Geben Sie einen Namen zur Identifizierung des Stream Analytics-Auftrags ein. Klicken Sie auf Erstellen.
Geben Sie in Event Hubs den Serialisierungstyp Ihrer Daten sowie die Authentifizierungsmethode an, die der Auftrag zum Herstellen einer Verbindung mit Event Hubs verwenden soll. Wählen Sie dann Verbinden aus.
Wenn die Verbindung erfolgreich eingerichtet worden ist, wird Folgendes angezeigt:
- Felder, die in den Eingabedaten vorhanden sind. Sie können Feld hinzufügen oder das Symbol mit den drei Punkten neben einem Feld auswählen, um den Namen optional zu entfernen oder zu ändern.
- Ein Livebeispiel für eingehende Daten in der Tabelle Datenvorschau unter der Diagrammansicht. Es wird regelmäßig aktualisiert. Sie können Streamingvorschau anhalten auswählen, um eine statische Ansicht der Beispieleingabe anzuzeigen.
Wählen Sie die Kachel Azure Data Lake Storage Gen2 aus, um die Konfiguration zu bearbeiten.
Führen Sie auf der Seite für die Azure Data Lake Storage Gen2-Konfiguration die folgenden Schritte aus:
Wählen Sie im Dropdownmenü das Abonnement, den Speicherkontonamen und den Container aus.
Wenn das Abonnement ausgewählt wurde, sollten Authentifizierungsmethode und Speicherkontoschlüssel automatisch ausgefüllt werden.
Als Pfad der Deltatabelle geben Sie den Speicherort und den Namen Ihrer in Azure Data Lake Storage Gen2 gespeicherten Delta Lake-Tabelle an. Sie können ein einzelnes Pfadsegment oder mehrere Pfadsegmente verwenden, um den Pfad zur Deltatabelle sowie den Deltatabellennamen zu definieren. Weitere Informationen finden Sie unter Schreiben in eine Delta Lake-Tabelle.
Wählen Sie Verbinden.
Wenn die Verbindung hergestellt wurde, werden die Felder angezeigt, die in den Ausgabedaten vorhanden sind.
Wählen Sie auf der Befehlsleiste Speichern aus, um Ihre Konfiguration zu speichern.
Wählen Sie auf der Befehlsleiste Starten aus, um den Streamingdatenfluss zu starten und Daten zu erfassen. Gehen Sie dann im Aufgabenfenster „Stream Analytics-Auftrag starten“ folgendermaßen vor:
- Wählen Sie die Startzeit der Ausgabe aus.
- Wählen Sie die Anzahl der Streamingeinheiten (SU) aus, mit denen der Auftrag ausgeführt wird. Streamingeinheiten stellen die Computeressourcen dar, die zum Ausführen eines Stream Analytics-Auftrags zugeordnet werden. Weitere Informationen finden Sie unter Streamingeinheiten in Azure Stream Analytics.
Nachdem Sie Starten ausgewählt haben, wird der Auftrag innerhalb von zwei Minuten gestartet, und die Metriken werden unten im Registerkartenabschnitt geöffnet, wie in der nachstehenden Abbildung dargestellt.
Der neue Auftrag wird auf der Registerkarte Stream Analytics-Aufträge angezeigt.
Überprüfen der Ausgabe
Vergewissern Sie sich, dass die Parquet-Dateien im Delta Lake-Format im Azure Data Lake Storage-Container generiert werden.
Überlegungen bei der Verwendung des Georeplikationsfeatures von Event Hubs
Für Azure Event Hubs wurde kürzlich das Feature Georeplikation als öffentliche Vorschauversion eingeführt. Dieses Feature unterscheidet sich vom Feature Georedundante Notfallwiederherstellung von Azure Event Hubs.
Wenn der Failovertyp Erzwungen und die Replikationskonsistenz Asynchron ist, garantiert der Stream Analytics-Auftrag nicht, dass genau eine Ausgabe in Azure Event Hubs erfolgt.
Als Producer mit einem Event Hub als Ausgabe kann in Azure Stream Analytics eine Wasserzeichenverzögerung für den Auftrag während eines Failovers und während der Drosselung durch Event Hubs auftreten, falls die Replikationsverzögerung zwischen dem primären und dem sekundären Replikat die maximale konfigurierte Verzögerung erreicht.
Als Consumer mit Event Hubs als Eingabe kann in Azure Stream Analytics während eines Failovers eine Wasserzeichenverzögerung auftreten, und es können nach dem Abschluss des Failovers Daten übersprungen werden oder doppelte Daten auftreten.
Aufgrund dieser Nachteile empfehlen wir, den Stream Analytics-Auftrag mit entsprechender Startzeit direkt nach Abschluss des Event Hubs-Failovers neu zu starten. Da sich das Georeplikationsfeature von Event Hubs zudem in der öffentlichen Vorschau befindet, wird derzeit nicht empfohlen, dieses Muster für Stream Analytics-Aufträge in der Produktion zu verwenden. Das aktuelle Stream Analytics-Verhalten wird verbessert, bevor das Event Hubs-Georeplikationsfeature allgemein verfügbar ist und in Stream Analytics-Produktionsaufträgen verwendet werden kann.
Nächste Schritte
Jetzt wissen Sie, wie Sie mit dem No-Code-Editor von Stream Analytics einen Auftrag erstellen, der Event Hubs-Daten in Azure Data Lake Storage Gen2 im Delta Lake-Format erfasst. Als Nächstes können Sie mehr über Azure Stream Analytics erfahren und wie Sie den von Ihnen erstellten Auftrag überwachen.