Freigeben über


Tutorial: Verwenden eines Notebooks mit Apache Spark zum Abfragen einer KQL-Datenbank

Notebooks sind sowohl lesbare Dokumente, die Beschreibungen und Ergebnisse der Datenanalyse enthalten, als auch ausführbare Dokumente, die zur Datenanalyse ausgeführt werden können. In diesem Artikel erfahren Sie, wie Sie ein Microsoft Fabric-Notebook verwenden, um mithilfe von Apache Spark Daten in einer KQL-Datenbank zu lesen und sie in diese zu schreiben. In diesem Tutorial werden vorab erstellte Datasets und Notebooks sowohl in der Real-Time Intelligence als auch in den Datentechnik-Umgebungen in Microsoft Fabric verwendet. Weitere Informationen zu Notebooks finden Sie unter Verwenden von Microsoft Fabric-Notebooks.

Sie lernen speziell Folgendes:

  • Erstellen einer KQL-Datenbank
  • Importieren eines Notebooks
  • Schreiben von Daten in eine KQL-Datenbank mithilfe von Apache Spark
  • Abfragen von Daten aus einer KQL-Datenbank

Voraussetzungen

1. Erstellen einer KQL-Datenbank

  1. Öffnen Sie den Switcher für die Benutzererfahrung unten im Navigationsbereich, und wählen Sie Real-Time Intelligence aus.

  2. Wählen Sie die KQL-Datenbank aus.

    Screenshot: Neue KQL-Datenbankkachel in Real-Time Intelligence.

  3. Geben Sie im Feld KQL-DatenbanknamenycGreenTaxi ein, und wählen Sie dann Erstellen aus.

    Die KQL-Datenbank wird im Kontext des ausgewählten Arbeitsbereichs erstellt.

  4. Kopieren Sie den Abfrage-URI aus der Karte der Datenbankdetails im Datenbankdashboard, und fügen Sie ihn irgendwo, z. B. in einen Editor, ein, um ihn in einem späteren Schritt zu verwenden.

     Screenshot: Karte der Datenbankdetails, wobei die Option „Abfrage-URI“ mit dem Titel „URI kopieren“ hervorgehoben ist.

2. Herunterladen des NYC GreenTaxi-Notebooks

Wir haben ein Beispielnotebook erstellt, das Sie durch alle erforderlichen Schritte zum Laden von Daten in Ihre Datenbank mit dem Spark-Connector führt.

  1. Öffnen Sie das Fabric-Beispielrepository auf GitHub, um das NYC GreenTaxi KQL-Notebook herunterzuladen.

    Screenshot: GitHub-Repository mit dem NYC GreenTaxi-Notebook. Die Option „Raw“ ist hervorgehoben.

  2. Speichern Sie das Notebook lokal auf Ihrem Gerät.

    Hinweis

    Das Notebook muss im Dateiformat .ipynb gespeichert werden.

3. Importieren des Notebooks

Der Rest dieses Workflows erfolgt im Abschnitt Datentechnik des Produkts und verwendet ein Spark-Notebook, um Daten in Ihre KQL-Datenbank zu laden und abzufragen.

  1. Öffnen Sie den Umschalter für die Benutzeroberfläche unten im Navigationsbereich, und wählen Sie Entwickeln und dann Ihren Arbeitsbereich aus.

  2. Wählen Sie Import>Notebook>Auf diesem Computer>Hochladen und dann das Notebook „NYC GreenTaxi“ aus, das Sie in einem vorherigen Schritt heruntergeladen haben.

    Screenshot: Fenster „Importstatus“. Die Schaltfläche „Hochladen“ ist hervorgehoben.

  3. Öffnen Sie das Notebook nach Abschluss des Imports in Ihrem Arbeitsbereich.

4. Abrufen der Daten

Um Ihre Datenbank mithilfe des Spark-Connectors abzufragen, müssen Sie Lese- und Schreibzugriff auf den NYC GreenTaxi-Blobcontainer gewähren.

Wählen Sie die Wiedergabeschaltfläche aus, um die folgenden Zellen auszuführen, oder wählen Sie die Zelle aus, und drücken Sie UMSCHALT+EINGABETASTE. Wiederholen Sie diesen Schritt für jede Codezelle.

Hinweis

Warten Sie, bis das Häkchen angezeigt wird, bevor Sie die nächste Zelle ausführen.

  1. Führen Sie die folgende Zelle aus, um den Zugriff auf den NYC GreenTaxi-Blobcontainer zu ermöglichen.

    Screenshot: Erste Codezelle mit Speicherzugriffsinformationen.

  2. Fügen Sie in KustoURI den zuvor kopiertenAbfrage-URI anstelle des Platzhaltertexts ein.

  3. Ändern Sie den Platzhalternamen der Datenbank in nycGreenTaxi.

  4. Ändern Sie den Platzhalternamen der Tabelle in GreenTaxiData.

    Screenshot: Zweite Codezelle mit den Informationen zur Zieldatenbank. Die Abfrage-URI, der Datenbank- und der Tabellenname werden hervorgehoben.

  5. Führen Sie die Zelle aus.

  6. Führen Sie die nächste Zelle aus, um Daten in Ihre Datenbank zu schreiben. Es kann einige Minuten dauern, bis der Vorgang abgeschlossen ist.

    Screenshot: Dritte Codezelle mit Tabellenzuordnung und Erfassungsbefehl.

Ihre Datenbank enthält nun Daten, die in eine Tabelle mit dem Namen GreenTaxiData geladen wurden.

5. Ausführen des Notebooks

Führen Sie die verbleibenden beiden Zellen sequenziell aus, um Daten aus Ihrer Tabelle abzufragen. Die Ergebnisse zeigen die 20 besten und niedrigsten Taxitarife und Entfernungen, die nach Jahr aufgezeichnet wurden.

Screenshot: Vierte und fünfte Codezelle mit den Abfrageergebnissen.

6. Bereinigen der Ressourcen

Bereinigen Sie die erstellten Elemente, indem Sie zu dem Arbeitsbereich navigieren, in dem sie erstellt wurden.

  1. Zeigen Sie in Ihrem Arbeitsbereich auf das Notebook, das Sie löschen möchten, und wählen Sie Menü „Mehr“ [...] >Löschen aus.

    Screenshot: Arbeitsbereich mit dem Dropdownmenü des NYC GreenTaxi-Notebooks. Die Option „Löschen“ ist hervorgehoben.

  2. Klicken Sie auf Löschen. Sie können Ihr Notebook nach dem Löschen nicht mehr wiederherstellen.